왜 Machine Learning을 사용하는가?

작년 언젠가 회사 PD분이 위 질문을 했다. 아마도 그때 답변은 미지의 데이터에 대해서 학습된 데이터를 기반 예측을 해서 자동으로 어떠한 처리하기 위해 ML을 사용한다고 한거 같다.쩝~ ML 공부만 하고 실무는 전혀 안해본 샌님이나 할 수 있는 대답이다. 오늘 분류데이터를 분석하면서 왜 ML을 사용해야 하는지 정말 절절하게 깨달았다. 이 느낌은 이전에 스팸관련 논문을 쓰면서 ML실험을하는 과정에서 […]

계속 읽기

간만에 악기 연주

어제 마눌님이랑 이산을 보다가 잠깐 방에 들어가서 어제 저녁에 야후 본사 Research 팀 박사님이 보내준 나의 질문에 대한 답변의  코드 분석을 하고 있었다.거실에서 이산의 마지막에 흘러나오는 테마곡 장윤정 – 약속 이라는 노래가 흘러나왔는데, 갑자기 이 노래를 오카리나로 불러보면 꽤 잘 어울릴거 같다는 느낌이 들었다. 그래서 바로 악보를 찾아봤고 그 악보를 보고 즉석으로 주제곡을 연주해 봤다. […]

계속 읽기

Yahoo! Research팀의 도움을 받아서…

3일동안 고민하고 코딩하고 테스트하고를 반복 하다가 결국 사내 machine learning 커뮤니티에 질문을 던졌다.미국시간으로 새벽에 메일을 받았을텐데, 어느 마음씨 좋은 Yahoo! research팀의 scientist분이 답변을 주셨다. 내 짧은 메일의 내용을 200% 이해하고 있었으며 정확하게 핵심을 짚어서 답변을 해주셨다.답변보다 놀라웠던점은 내가 하는 작업과 알고리즘에 대해서 훤히 들여다 보는 그 혜안이였다. 그분이 통한건지 내가 통하게 질문을 했던건지…..쩝 사실 그동안 […]

계속 읽기

Programming Erlang 번역본 출간!

비동기적 세상으로 떠나는 여행 : 프로그래밍 얼랭(Programming Erlang) 한달도 전에 번역리뷰를 하느라 좀 고생을 했던 책이 이제 출간한단다. 솔직히 리뷰를 핑계로 책을 먼저 읽어보는 행운을 누렸다고 해야 하나? 욕심도 많지, 그것도 짧은 기간동안 책의 반을 리뷰한다고 했으니…..쩝! 전화 교환기 사진인가? 이 탁월한 표지 디자인 감각! ㅋ~ 사실 이 리뷰기간을 계기로 Erlang 코딩을 많이 하게 되었다. […]

계속 읽기

쉬는 3일 내내

3일 내내 뭔가 많이 보고 연구해보고 시도해보고 했지만 마지막 한개의 단추가 안끼워지는 느낌이 든다. 많이 뭔가를 보긴 봤는데 계속 겉도는 느낌만 들고 …입질은 계속 되는데 고기는 못 낚는 그런 느낌이랄까? 항상 그러하듯이 어느 한순간 머리에 확 떠오르면서 마치 어떤 새로운 세계가 눈앞에 전개되는 듯한 느낌이 언젠가는 들겠지?뭔가 연구한다는건 항상 이런 식이다. 꾸준히 구애하다가 결국 깨달음에 […]

계속 읽기

구글 입사문제에 자주나오는 것들이…

사실 어제 알고리즘을 작성하다가 두 값을 넣어서 첫번째 값이 두번째 값보다 우선할때 true를 리턴하는 함수를 작성했다. 그리고 그걸 이용해서 데이터를 소팅을 했는데 처음 몇백건에 대해서는 아무런 문제 없이 되다가 실제 수백만건으로 작업을 하다가 메모리가 풀나버렸다. (당연하겠지만…) 일단 이전과 같이 하던 작업 스타일인 우열을 가늠할 수 있는 필드를 레코드 마지막에 넣어서 나중에 sort 명령으로 소팅해 버리면 […]

계속 읽기

Google Tech Talk

Google Tech Talk행사를 한다고 블로그에 공개적으로 올라오고 난 후 주제에 흥미가 가서 신청을 했는데 오늘 초청장이 왔다.사실 저번에 초청장 받은적이 있었는데 Tech Talk에 대한 내용에 대한 언급이 전혀 없었고 게다가 문의 메일을 보냈는데 답장이 없어서 관심이 시들해져 버렸었다. 하지만 이번에는 좀 다를거 같다.   ——————-       일             […]

계속 읽기

Machine Learning 관련 프로젝트에서

가장 중요하고 가장 많은 시간을 잡아 먹는것이… “데이터 전처리” 라는걸 많은 사람들이 간과한다. 나도 역시 ML 코어작업에 완전 푹 빠져서 이 부분을 간과하고 있다가 크게 뒤통수를 맞았다. 에러데이터 제거, 데이터 노말라이즈, 컴퓨터가 알아보기 쉬운 Feature Vector로의 변환작업 등등 그중에 입력 데이터의 정확도를 확인하는 부분은 정말 힘든 작업이다. 어느책을 보면 이 전처리 부분이 전체 마이닝 관련 […]

계속 읽기

Hadoop 클러스터를 실시간 서비스에 적용 가능할까요? 라는 질문에 대해서

위 질문은 어제 내 발표가 끝나고 어떤분이 했던 질문이였다.어제 대다수의 질문이 hadoop(야후 그리드 시스템 구성이나 operation) 자체에 대한 질문이였다면(이런 질문은 confidential 이슈로 대부분 답변하지 않았다.) 그러나 이 질문은 가장 유일했던 hadoop을 이용한 알고리즘에 대한 질문이였다. 이 이야기를 좀더 심도깊게 이야기 하지 못한게 약간 후회되서 포스팅을 써본다. 변명을 하자면 어제 상당히 많은 분들이 질문과 명함교환을 요청하셔서 […]

계속 읽기

Platformday2008 후기

어제 PlatformDay2008 이라는 행사에 All day 참석을 했다. 아랫부분 누구 머리인지 살짝 예상이 된다. ㅋ 한재선 박사님의 부탁으로 나름 준비 좀 해서 발표를 했다. 이전에도 언급했지만 역시 이 발표에서도 하지 말아야 될 말들과 해도 될 말들에 대한 고민을 많이 했고, 발표 중간 중간 질문이 있을때 솔직히 답변을 생각하기 보다는 이걸 말해도 되는지에 대한 생각을 가장 […]

계속 읽기