칼럼을 쓰자!

예전에 IBM Developerworks에 굉장히 특이한 칼럼을 쓴적이 있었다. 주로 개발 관련 소프트웨어에 대한 글이 주를 이루고 있는 웹진인데 겁도 없이 수식을 들이대고 스팸 필터링 관련 Machine Learning 칼럼을 기고한 것이다. 그러고나서 한번의 질문도 제대로 받지 못했고 한분을 제외하고는 칼럼에 대한 피드백을 받아 본적이 없었다. (사실 대중성이 없는 주제기도 하다. ) 그러다 어느날 어느 유명 검색포털에 […]

계속 읽기

Hanrss와 Site Explorer

일전에 Hanrss top 1000 블로거를 추출해 본 적이 있었다.반응이 좀 좋았는데, 이번에는 구독자수를 입력해봤고, 게다가 Yahoo! Site explorer의 데이터도 뽑아서 넣어 봤다. Site Explorer 에서 해당 url의 inlink count와 해당 주소의 sub url의 갯수를 알수 있다. 그것도 힘들게 html 파싱같은거 하지 않아도 말이다. 이 부분에 대해서는 Yahoo! Site Explorer API를 참고하길 바란다. 사실 내 의도는 […]

계속 읽기

왜 Machine Learning을 사용하는가?

작년 언젠가 회사 PD분이 위 질문을 했다. 아마도 그때 답변은 미지의 데이터에 대해서 학습된 데이터를 기반 예측을 해서 자동으로 어떠한 처리하기 위해 ML을 사용한다고 한거 같다.쩝~ ML 공부만 하고 실무는 전혀 안해본 샌님이나 할 수 있는 대답이다. 오늘 분류데이터를 분석하면서 왜 ML을 사용해야 하는지 정말 절절하게 깨달았다. 이 느낌은 이전에 스팸관련 논문을 쓰면서 ML실험을하는 과정에서 […]

계속 읽기

간만에 악기 연주

어제 마눌님이랑 이산을 보다가 잠깐 방에 들어가서 어제 저녁에 야후 본사 Research 팀 박사님이 보내준 나의 질문에 대한 답변의  코드 분석을 하고 있었다.거실에서 이산의 마지막에 흘러나오는 테마곡 장윤정 – 약속 이라는 노래가 흘러나왔는데, 갑자기 이 노래를 오카리나로 불러보면 꽤 잘 어울릴거 같다는 느낌이 들었다. 그래서 바로 악보를 찾아봤고 그 악보를 보고 즉석으로 주제곡을 연주해 봤다. […]

계속 읽기

Yahoo! Research팀의 도움을 받아서…

3일동안 고민하고 코딩하고 테스트하고를 반복 하다가 결국 사내 machine learning 커뮤니티에 질문을 던졌다.미국시간으로 새벽에 메일을 받았을텐데, 어느 마음씨 좋은 Yahoo! research팀의 scientist분이 답변을 주셨다. 내 짧은 메일의 내용을 200% 이해하고 있었으며 정확하게 핵심을 짚어서 답변을 해주셨다.답변보다 놀라웠던점은 내가 하는 작업과 알고리즘에 대해서 훤히 들여다 보는 그 혜안이였다. 그분이 통한건지 내가 통하게 질문을 했던건지…..쩝 사실 그동안 […]

계속 읽기

Programming Erlang 번역본 출간!

비동기적 세상으로 떠나는 여행 : 프로그래밍 얼랭(Programming Erlang) 한달도 전에 번역리뷰를 하느라 좀 고생을 했던 책이 이제 출간한단다. 솔직히 리뷰를 핑계로 책을 먼저 읽어보는 행운을 누렸다고 해야 하나? 욕심도 많지, 그것도 짧은 기간동안 책의 반을 리뷰한다고 했으니…..쩝! 전화 교환기 사진인가? 이 탁월한 표지 디자인 감각! ㅋ~ 사실 이 리뷰기간을 계기로 Erlang 코딩을 많이 하게 되었다. […]

계속 읽기

쉬는 3일 내내

3일 내내 뭔가 많이 보고 연구해보고 시도해보고 했지만 마지막 한개의 단추가 안끼워지는 느낌이 든다. 많이 뭔가를 보긴 봤는데 계속 겉도는 느낌만 들고 …입질은 계속 되는데 고기는 못 낚는 그런 느낌이랄까? 항상 그러하듯이 어느 한순간 머리에 확 떠오르면서 마치 어떤 새로운 세계가 눈앞에 전개되는 듯한 느낌이 언젠가는 들겠지?뭔가 연구한다는건 항상 이런 식이다. 꾸준히 구애하다가 결국 깨달음에 […]

계속 읽기

구글 입사문제에 자주나오는 것들이…

사실 어제 알고리즘을 작성하다가 두 값을 넣어서 첫번째 값이 두번째 값보다 우선할때 true를 리턴하는 함수를 작성했다. 그리고 그걸 이용해서 데이터를 소팅을 했는데 처음 몇백건에 대해서는 아무런 문제 없이 되다가 실제 수백만건으로 작업을 하다가 메모리가 풀나버렸다. (당연하겠지만…) 일단 이전과 같이 하던 작업 스타일인 우열을 가늠할 수 있는 필드를 레코드 마지막에 넣어서 나중에 sort 명령으로 소팅해 버리면 […]

계속 읽기

Google Tech Talk

Google Tech Talk행사를 한다고 블로그에 공개적으로 올라오고 난 후 주제에 흥미가 가서 신청을 했는데 오늘 초청장이 왔다.사실 저번에 초청장 받은적이 있었는데 Tech Talk에 대한 내용에 대한 언급이 전혀 없었고 게다가 문의 메일을 보냈는데 답장이 없어서 관심이 시들해져 버렸었다. 하지만 이번에는 좀 다를거 같다.   ——————-       일             […]

계속 읽기

Machine Learning 관련 프로젝트에서

가장 중요하고 가장 많은 시간을 잡아 먹는것이… “데이터 전처리” 라는걸 많은 사람들이 간과한다. 나도 역시 ML 코어작업에 완전 푹 빠져서 이 부분을 간과하고 있다가 크게 뒤통수를 맞았다. 에러데이터 제거, 데이터 노말라이즈, 컴퓨터가 알아보기 쉬운 Feature Vector로의 변환작업 등등 그중에 입력 데이터의 정확도를 확인하는 부분은 정말 힘든 작업이다. 어느책을 보면 이 전처리 부분이 전체 마이닝 관련 […]

계속 읽기