평상시에 정말 배우고 싶었던 분야중에 기계학습(Machine Learning)이 있었다.
좀 접근하기 힘든 분야라서 그런지 생각만 하고 있다가 금번 대학원 과목으로 책정되어 있는걸 확인하고 바로 수강 신청을 해버렸다.
처음엔 수강인원이 꽤 많았는데 프로그래밍 과재 2번에 시험 두번이라고 교수님이 말씀하신 후로 9명으로 수강인원이 줄었다. 다른분들 덕분에(?) 교수님과 좀 친하게 출발을 할수 있어서 좋았다.
여기서 배우는 책은 이거다.
MACHINE LEARNING
기계학습 분야의 꽤 유명한 책인데 1장을 보는데 좌절을 했었지만 2,3 장은 좀 수월하게 공부한거 같다는 생각이 든다. 좀더 공부에대한 동기부여를 해볼려고 검색엔진 개발자 그룹의 고수 분들에게 문의를 해봤다.
Q.기계학습 이론이 검색엔진과 얼마나 관련이 있는지요?
A.
하얀눈길 님 왈 : Clustering, Classification에서 많이 사용되고 있구요. 그외 응용분야는 꽤 많겠지요..
김경훈 님 왈 : 주로 자동 행태소 사전 형성 및 주제어 추출에 사용되어 지고 있습니다
kimai 님 왈 : hmm, 뉴럴, 베이지언, 유전 등이 쓰이는 걸로 알고 있는데요.. hmm – 형태소 태깅시 코퍼스를 기반으로 학습시킬때 주로 사용하고요
kimai 님 왈 : 베이지언-문서간의 주제별 분류나 요약 등등.. 뉴럴이나 유전 쪽은 – html 태그 가중치의 학습이나 형태소 태깅에도 쓰이고 많은 분야에 쓰입니다
kimai 님 왈 : http://ai.bpa.arizona.edu/papers/mlir93/mlir93.html 참고하세요~
아주 동기부여 팍팍 되는군…. ㅋㅋㅋㅋ
갠적으로 JavaScriptParser 탑재에 관심이 많았지만 이건 스크립트 언어 엔진을 만드는정도로 노력이 많이 들어가는것이라 이래저래 미루고 있는 상태인데.
수업을 들으면서 간단한 자바스크립트 링크 처리는 몇몇 Training Data를 만들어 주고 학습을 시킨 다음에 처리를 해주는 방법도 괜찮을거 같다는 생각도 해본건 사실이다. 물론 Training Data를 입력해 줘야한다는 불편함이 있지만 뭐 잘만되면 꽤 괜찮은 기능이 될거 같다는 생각도 해본다.
형태소 분석에서 말뭉치(코퍼스)를 이용하는 방법은 현 회사에서도 쓰고 있는 방법인데 사전을 기반하지 않은 형태소 분석기는 반쪽짜리라는 믿음이 확고하기땜시 전적으로 학습을 통한 방법을 쓴다는건 무리가 있는듯하다.
한마디로 적절하게 배합을 해서 쓴다는 것이지.
아무튼 아주 흥미로운 과목이다. 뭘 배우면서 빨리 숙제가 나오길 바라는 과목은 처음이 아닐까한다.
기계학습(Machine Learning)과목을 배우며 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.