도메인 전문가 혹은 머신러닝 전문가?

Strata 컨퍼런스에서 있었던 논쟁중에 하나로 위 제목과 같은 내용의 대화가 우리가 익히 알고 있는 사람들에 의해서 논의 되었는데, 그 결론이 참으로 기억해 둘만해서 올려본다.   the data science debate: domain expertise or machine learning?   debator들은 아래와 같다.   Drew Conway, Ph.D. Candidate at NYU, Data Scientist at IA Ventures  DJ Patil, Data Scientist in […]

계속 읽기

패턴인식 및 기계학습 겨울학교 참가 후기

원래 최근 들어서 머리가 굵어져서 그런지 어딜 참석해도 후기 같은걸 잘 안 쓰는데, 후기를 쓰고자 한다. 2012년 2월 23일 ~ 25일까지 서울대학교에서 있었던 패턴인식 및 기계학습 겨울학교 후기이다. 일단 올해 들어서 6회에 접어드는 겨울학교인데, 처음 참석하는 거라서 성격을 잘 모르고 왔구나 하는 느낌이 많이 들었다. 커리큘럼 자체가 일반적인 제목들이라서 안심하고 갔는데, 패턴인식 개론서에 나온 정도의 […]

계속 읽기

기본 개발자 소양을 갖추기 전에 Machine Learning은 하지 마라!

Machine Learning을 사용하는 International 프로젝트를 처음 경험하다보니 ML에 대한 관점이 많이 바뀌었다. 사실 프로젝트를 하면서 사내에서 쓰는 ML라이브러가 어떻게 돌아가는지 소스코드를 까볼 기회조차 없었고, 심지어 여러 세부 세팅을 조작해볼 기회도 역시 없었다. 그럼 뭘 했나???ㅋㅋㅋ 사실 위와 같이 ML 라이브러리를 살펴볼 필요가 없었다. 대강 어떻게 알고리즘이 돌아가는걸 알고, 이 라이브러리는 잘 돌아갈 것이라 믿으면 그만이다. […]

계속 읽기

지능형 에플리케이션에서 간과할 수 있는 7가지

기계학습이나 머신러닝을 가미한 프로젝트 그러니까 지능형 에플리케이션을 구축할 때 간과하기 쉬운 몇 가지 사실을 이야기 하고자 한다. 물론 아래 사실은 학술적인 머신러닝책에 나오지 않은 경험적인 내용이다. 1. 데이터는 믿을만 하다? 아마 이 부분이 가장 많은 사람들이 간과하기 쉬운 부분일 듯 하다. 지능형 에플리케이션은 데이터에서부터 시작해서 데이터로 끝난다. 그리하여 믿을만한 데이터셋을 구축하는게 무엇보다 중요한 부분이 된다. […]

계속 읽기

기계학습 이제 어렵지 않다.

최근 들어서 가장 나에게 많은 영향을 끼친 다른 어느분의 이야기를 들어보면 아래와 같다. “희원씨는 머신러닝을 너무 어렵게 생각하는거 같아요.” 최근에 가장 나에게 임펙트를 많이 준 이야기였다. 왜 충격적이였냐 하면 실제 외부에 표출되는 나의 이야기에 대한 느낌이 다분히 그럴 수 있을거라는 나 자신에 대한 반성때문이다. 수년간 ML 알고리즘 공부하고 했지만 학교에서 배운 알고리즘과 개인적으로 습득한 알고리즘을 […]

계속 읽기

검색 성능 개선의 두가지 방법

월간 마소에 기고글을 넘겼는데 적은 분량에 하고 싶은 이야기는 많고 수식을 최대한 줄이고 하려니 거의 주화입마에 걸릴뻔 했다. 검색 성능 개선을 위한 두 가지 방법에 대해서 설명하고 각 기술들의 차이점과 구현시 신경써야될 부분들에 대해서 썼다.초기 의도했던 부분들의 내용도 들어 있지만 개인적인 생각과 관점을 줄이고 기술적인 내용을 첨가하려 노력했다. 두 가지 방법이란 흔히 편집기술이라고 이야기 하는 […]

계속 읽기

간단한 블로그 덧글 스팸 필터 만들기

드뎌 기계학습 시간에 주제로 선정한 스팸 필터를 제작하는 초기화 작업을 시작했다.아니 이미 시작했구나.. ㅡㅡ; 쉬는동안 이미 C로 구현한 스레드 기반 서버는 거의 만들었고, 클라이언트를 구현하고 스팸필터를 만드는 일이 남았다. 게다가 stemmer를 구현해야 하는데. 이것은 강승식 교수님 라이브러리를 사용해서 간단하게 사용해야 겠다. 학습용이니 사용해도 될듯하다. 폴 그래이험이 스팸필터 알고리즘으로 사용했던 나이브 베이지언 룰을 이용해서 일단 구현해서 […]

계속 읽기