야후에서의 2주.

야후에서의 2주를 한단어로 설명하자면? Fun 오자마자 잠깐의 Test Project로 흠뻑 Hadoop에 빠져서 분석하고 실험했다. 2.3G 텍스트 데이터, Hadoop 머신들 그리고 Map&Reduce Design 및 Hadoop 소스분석 등등…. (Lucene과 Hadoop의 창시자인 Doug cutting이 야후 직원이다.) 그리고 야후 내부 네트웍 엄청난 Research 자료들 하며…. (@.@) 아마도 매일 날을 새도 전 세계에서 날아드는 Wiki문서나 Research 자료를 보기도 벅찰거 같다는 […]

계속 읽기

Hadoop을 보면서

약 4일동안 Hadoop을 가지고 놀고 있다. 논다기 보다는, 약간의 삽질과 개념 이해를 위해 코딩 약간… 정도. (가장 힘들었던것은 역시나 한글 코드가 깨지는 것이였다. 물론 하루 반나절만에 해결을 했다. 이런 삽질은 역시나 빨리 해결하려고 하는게 정신 건강에 좋다. 이자리는 빌어 김형준님에게 감사드린다. JVM fork관련된 충고가 없었다면 이렇게 빠르게 해결하지 못했을 것이다.) 전에 Distribute Sort에 대해서 한번정도 […]

계속 읽기

간단한 블로그 덧글 스팸 필터 만들기

드뎌 기계학습 시간에 주제로 선정한 스팸 필터를 제작하는 초기화 작업을 시작했다.아니 이미 시작했구나.. ㅡㅡ; 쉬는동안 이미 C로 구현한 스레드 기반 서버는 거의 만들었고, 클라이언트를 구현하고 스팸필터를 만드는 일이 남았다. 게다가 stemmer를 구현해야 하는데. 이것은 강승식 교수님 라이브러리를 사용해서 간단하게 사용해야 겠다. 학습용이니 사용해도 될듯하다. 폴 그래이험이 스팸필터 알고리즘으로 사용했던 나이브 베이지언 룰을 이용해서 일단 구현해서 […]

계속 읽기

야후 입사 첫날

자리에 놓인 입사 축하 화분.산세베리아가 꽃이 피던가?누군가 꽃 피워야 한다고 한거 같긴한데. ㅡㅡ; 직원 한분께서 축하한다고 직접 전해주신 상디 캐릭터 저것이 나랑 닮았다구 하시던데… 정말 과찬이시다.. ㅜㅜ 이것들 말고 받은게 많지만…. 일단 이것들만…쩝 ^^;앞으로 좋으신 분들이 마구마구 야후로 오심 좋겠다.

계속 읽기

pagerank 단점 보완할수 있을까?

Pagerank의 가장 큰 문제점은 좋은 글이 시간이 가면 갈수록 너무 유명해져서 새롭게 등장하는 좋은 글이 랭킹의 위로 올라갈 기회를 안준다는데 있다. 물론 구글에서도 이런것에 대한 개선사항이 있었겠지만, 어제 화장실에서 철학책을 뒤적이면서 링크 정보를 활용한 랭킹시스템에 위의 문제를 개선할 좋은 방법을 생각해 냈다. 상대적인것과 절대적인 것의 의미의 차이를 잘 생각해보면 알수 있다. 다만 구현상에 중요한것은 링크정보를 […]

계속 읽기

문서 중복에 대해서 .

문서 중복에 대해서 예전에 Shingle 방법에 대한글을 쓴 경험이 있다. 주로 중복문서의 제거의 Key Issue는 검색 복잡도를 해결하는것이라고 할 수 있다. md5 hash를 이용하는 방법은 O(n)의 복잡도를, Shingle 계열의 방법을 사용하는것은 O(n^2)의 복잡도를 자랑한다. 어느글과 비슷한 글을 찾기 위한 기능을 검색엔진에서 제공한다면 아마도 주로 Shingle을 이용한 여러가지 방법들중에 하나를 사용해서 제공하리라 본다. 하지만 이는 미리 […]

계속 읽기

printf를 쓰지 않고 숫자 출력하기.

“printf를 쓰지 않고 숫자(int형)를 출력하시오!” 얼마전에 모 기업 필기 입사 시험에 나온 코딩 문제다. 그때 이 문제를 딱 보고 ASCII코드 관련 문제구나 하고 생각만하고 다른 문제 푸는데 시간이 많이 소요되었기도 하고 putchar라는 함수명이 정확히 기억이 안나서 그냥 넘어갔던 문제였다. 갑자기 생각이 나서 한번 코드로 구현해봤다. [CODE c]#include <stdio.h>#include <stdlib.h> int powi(int, int); int main(int argc, […]

계속 읽기

검색의 소스가 되는 대상에 대한 이해

요즘 기술적인 부분보다 그냥 생각하는 것들을 블로그에 많이 적고 있다. 형태소 분석이든 검색 모델이든간에… 고전적인 Text 기반의 검색을 이야기 하고 있다. 물론 Text는 검색을 위해서 중간의 인터페이스가 될 수 있다. 인터페이스가 된다 함은 Text가 다루기 쉽고, 현재 정보검색에서 연구분야도 많은 뿐더러 실례로 상당히 많이 때문이다. 얼마전에 동영상 검색을 하는데 음성인식 기술을 이용해서 Text를 추출후 그 […]

계속 읽기

스프링노트

싸이오형님이 오픈마루에 계셔서 스프링노트 초대장을 받을 수 있었다. 보고 처음 느낀것은 ‘정말  편리하겠다’ 라는 생각과, 저기에 뭘 채울까 하는 고민이  들었다. 주된 메모들은 블로그에 하는 편이고, 게다가 논문 세미나 정리는 wiki에 하는편인데… 생각해보니까, wiki의 문서 작성 형식의 자유로움과 블로그의 다이내믹한 사용성 사이에서 많은 고민을 한 흔적이 있는 툴인거 같다. 사용성 측면에서 가깝다면 wiki에 가깝다고 해도 […]

계속 읽기