conv2님의 책이 강컴 베스트셀러에 두권이나….

평소 절친한(?) 사이인 conv2님이 요즘 신나셨다. 왜냐면 자신이 쓰신 책이 강컴 베스트셀러에 2권이나 오른것이다. 오픈소스 OpenCV를 이용한 컴퓨터 비전 실무 프로그래밍 : 기본편 오픈소스 CxImage를 이용한 Visual C++ 디지털 영상처리 2번째 책은 사인도 당시 받아서 봤는데, 요즘에 나온 첫번째 책은 아직 받지 못했다. 아마도 강남교보문고에서 또 다시 함깨 서점 습격을 같이 할때 주신다고 했으니 믿어볼 […]

계속 읽기

주말에 고민해본 Distribute Spam sniping.

전에 포스팅에서 구글 엔지니어에게 Map&Reduce가 어디에 쓰이는지 여쭈어 본적이 있었다고 글을 썼다. 오늘 스팸 처리 알고리즘 모듈을 생각하다가, 이거 스팸처리 하는 확률을 계산하는데, complexity가 상당히 높게 나오고, 스팸 리포팅들어오면 거의 모든 텀의 스팸 확률을 재계산 해야 한다는 그런 어려움(?) 생길거 같다는 생각을 해보다가, 결국 MapReduce로 분산처리를 해볼수 있을거라는 생각을 해봤다. 만일 스팸처리 자체가 텀의 독립성 […]

계속 읽기

springnote에서 doku wiki로 옮김

스프링노트 정말 좋은 툴이다, 게다가 이 곳에다가 정말 나의 아이디어를 메모하는 용도로 많이 썼는데, conv2님이 이곳 약관이 이상하다는 이야기를 하셔서 내 계정의 wiki로 옮긴다.   제 15 조 (게시물에 대한 저작권) 회원이 단독으로 또는 공동으로 서비스 내에 작성한 게시물의 저작권은 게시한 회원에게 귀속됩니다. 회원은 게시물의 다른 사람에게 자신의 저작물의 이용을 허락할 수 있고, 이용허락을 받은 […]

계속 읽기

야후에서의 2주.

야후에서의 2주를 한단어로 설명하자면? Fun 오자마자 잠깐의 Test Project로 흠뻑 Hadoop에 빠져서 분석하고 실험했다. 2.3G 텍스트 데이터, Hadoop 머신들 그리고 Map&Reduce Design 및 Hadoop 소스분석 등등…. (Lucene과 Hadoop의 창시자인 Doug cutting이 야후 직원이다.) 그리고 야후 내부 네트웍 엄청난 Research 자료들 하며…. (@.@) 아마도 매일 날을 새도 전 세계에서 날아드는 Wiki문서나 Research 자료를 보기도 벅찰거 같다는 […]

계속 읽기

Hadoop을 보면서

약 4일동안 Hadoop을 가지고 놀고 있다. 논다기 보다는, 약간의 삽질과 개념 이해를 위해 코딩 약간… 정도. (가장 힘들었던것은 역시나 한글 코드가 깨지는 것이였다. 물론 하루 반나절만에 해결을 했다. 이런 삽질은 역시나 빨리 해결하려고 하는게 정신 건강에 좋다. 이자리는 빌어 김형준님에게 감사드린다. JVM fork관련된 충고가 없었다면 이렇게 빠르게 해결하지 못했을 것이다.) 전에 Distribute Sort에 대해서 한번정도 […]

계속 읽기

간단한 블로그 덧글 스팸 필터 만들기

드뎌 기계학습 시간에 주제로 선정한 스팸 필터를 제작하는 초기화 작업을 시작했다.아니 이미 시작했구나.. ㅡㅡ; 쉬는동안 이미 C로 구현한 스레드 기반 서버는 거의 만들었고, 클라이언트를 구현하고 스팸필터를 만드는 일이 남았다. 게다가 stemmer를 구현해야 하는데. 이것은 강승식 교수님 라이브러리를 사용해서 간단하게 사용해야 겠다. 학습용이니 사용해도 될듯하다. 폴 그래이험이 스팸필터 알고리즘으로 사용했던 나이브 베이지언 룰을 이용해서 일단 구현해서 […]

계속 읽기

야후 입사 첫날

자리에 놓인 입사 축하 화분.산세베리아가 꽃이 피던가?누군가 꽃 피워야 한다고 한거 같긴한데. ㅡㅡ; 직원 한분께서 축하한다고 직접 전해주신 상디 캐릭터 저것이 나랑 닮았다구 하시던데… 정말 과찬이시다.. ㅜㅜ 이것들 말고 받은게 많지만…. 일단 이것들만…쩝 ^^;앞으로 좋으신 분들이 마구마구 야후로 오심 좋겠다.

계속 읽기

pagerank 단점 보완할수 있을까?

Pagerank의 가장 큰 문제점은 좋은 글이 시간이 가면 갈수록 너무 유명해져서 새롭게 등장하는 좋은 글이 랭킹의 위로 올라갈 기회를 안준다는데 있다. 물론 구글에서도 이런것에 대한 개선사항이 있었겠지만, 어제 화장실에서 철학책을 뒤적이면서 링크 정보를 활용한 랭킹시스템에 위의 문제를 개선할 좋은 방법을 생각해 냈다. 상대적인것과 절대적인 것의 의미의 차이를 잘 생각해보면 알수 있다. 다만 구현상에 중요한것은 링크정보를 […]

계속 읽기