참가하면 티셔츠한장, 프로토타입 제출하면 전자액자….
머리속에 하고 싶은건 가득한데, PlatformDay2008 발표준비와 6월초에 예정된 서비스 런치 덕분에 초 간단 Machine Learning 토이프로젝트로 하기로 했다.
게다가 프로토타입 제출날짜와 PlatformDay2008 발표 날짜가 같으니, 더 간단하게…
작년에 ML관련 스팸 Hack을 했었고 올해도 역시 ML에 대한 사내 개발자들의 관심을 좀 불러 일으키고저 ML프로젝트로 결심했다.
ML이라고 하면 데이터를 수집하고 정제, 분류하는데 60%이상의 리소스를 먹으니, 그게 가장 큰 장애물중에 하나다.
이 부분을 쉽게 넘길수 있을거 같아서 충동적으로 참가 신청서를 내고 말았다.
하려고 하는 프로젝트는 블로그 토픽 분류 엔진을 제작하는 프로젝트이다.
그렇다면 블로그 토픽이 분류된 데이터셋이 필요한데, 이미 많은 메타 블로그 사이트나 서비스 사이트에 가보면 사람들이 분류한 데이터가 넘쳐 흐른다. 친절하게도 rss 버튼까지 공개하고 있으니 못할 이유가 없다.
점심시간을 이용해서 분류된 그리고 지금도 잘 관리되는 블로그 주소 2000여건을 크롤링 했고 이 글을 다 쓰고 나서 본문을 크롤할 예정이다.
ML쪽 프로젝트는 다 했다고 치더라도 첫술에 배부르는 경우가 거의 없다. 학습 데이터 튜닝과 적절한 환경 변수 선택 등 성능에 영향을 미치는 꽤 많은 변수들을 조절해 나가는 작업이 필수다. 그 작업이 가장 마지막에 넘어야될 또 하나의 고비다.
그래서 …
잘되면 정말 많은 개발자나 팀장님들에게 ML의 성능과 가능성을 피력할 수 있는 좋은 계기가 되는거구, 잘 안나오면 그냥 전자액자에 만족하는거구.
사내 핵데이 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.