야후 본사 출장중….

현재 야후 본사[footnote]미국 실리콘벨리 미션 칼리지(Mission College)[/footnote] 출장중에 있다. 뭐 아시는분들은 다 아시는것이겠지만…다만 운전을 못해서 돌아다니지는 못하지만, 여러 지인들 덕분에 그나마 외국에 온 구색은 내고 있는 중이다. 특히나 오버추어 정박사님 덕분에 맛난거 많이 구경하고(?) 다니고 있다.(박사님 정말 감사합니다. ^^) 여기 와서 느끼는것 딱 세가지다. 1. 운전을 다시 해야겠다.2. 회화 위주의 영어학습 습관을 들여야겠다.3. 앞으로 검색 […]

계속 읽기

D Language 인코딩 변환하기 위해.

토요일부터 D Language의 인코딩 변화를 위해서 무엇을 쓸까 고민하다가, 결국 iconv모듈로 가게 되었다. 실제적으로 기본 라이브러리인 phobos에서 인코딩 변환을 utf 인코딩간만 지원하기 때문에 나처럼 한글 형태소 분석기를 utf-8기반으로 돌려야 하는 사람에게는 인코딩 변환이 필수이다. 그런데, iconv모듈을 엊을라면 뭘 어떻게 해야할까? 언어 자체적으로 지원하는 다이내믹 라이브러리 로딩 방법을 써서 함수 포인터를 연결해 주면 될것이다. 뭐 몇시간 […]

계속 읽기

정신없는 요즘

방금 중간 레포트를 제출 했다. ㅎㅎ 베이지언 스팸 필터를 구현하고 있는데, 이것도 D Language로 구현하고 있다. 물론 기존에 구현하고 있던 C 기반의 필터도 근근히 개발하고 있었는데, D Language가 더 재밋어서 마구 쓰고 있다. 어제까지는 신경망 알고리즘(Backpropagation) 구현하고 레포트 제출에다가 시험까지 보구, 오늘은 베이지언 방법을 이용한 스팸 필터의 레포팅을 하고 설계에 대해서 제출했다. 신경망 알고리즘이 피부로 […]

계속 읽기

D language로 Backpropagation algorithm 구현

토요일부터 어제까지 근근하게 개발했던 Backpropagation Algorithm을 올려본다 개발 언어는 D Language를 사용해서 개발했다.(D Language 연습용.) 사실 레포트 제출용으로 시작하게 되었다. 실제 레포트는 아무 툴을 사용해서 데이터와 실행 순서를 분석하라는것이였는데, 어째 하다보니 답답해서 구현해 봤다. 예전에 Decision Tree 구현할때처럼 일단 이런 러닝 알고리즘은 구현해보는게 가장 좋은 방법이다. 책을 쳐다보고만 있으면 이해하기 쉽지 않은 알고리즘중에 하나이다. 명확하게 […]

계속 읽기

D Language.

요즘 D Language에 빠져 있다. 엇그제 새벽에 처음 접하고 어제 오늘 퇴근후에 Language Spec을 열심히 보구, 코딩 몇줄 해보고 하면서 뭔가 임펙트를 받고 있다. 코드 자체가 C, C++언어와 유사하고, 어찌보면 Java와도 유사하게 보이기도 한다.(자바가 C, C++과 유사하긴 하지만)  무엇보다 가장 좋은건, 내가 좋아하는 C 스타일의 코딩이 가능하고, 게다가  C에서 불편하게만 생각했던 부분에 대한 개선이 많이 […]

계속 읽기

Technorati 블로그 랭킹 개선

Technorati 블로그 검색서비스가 랭킹에서 Authority를 추가했다고 한다. “Technorati Authority is the number of blogs linking to a website in the last six months. The higher the number, the more Technorati Authority the blog has.” Authority를 6개월동안의 것만 취급하는구나. 좋은 아이디어 같다.(Authority는 HITS알고리즘의 개념이다. PageRank와 아주 유사한 알고리즘이다.) PageRank알고리즘도 저렇게 하면 오래된 문서가 계속 상위에 랭크되는걸 […]

계속 읽기

새로 관심을 가지는 분야…

스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다. ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.) 스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면… 1. 사용자(스패머)의 의도를 파악해야 한다.2. […]

계속 읽기

About Hadoop Streaming

Hadoop을 처음에 Java로만 접근을 했다. 물론 Java API가 기본이기 때문에 그럴것이다.물론 저번주 사내 Tech Talk에서도 Java Code만 공개해서 예제를 보여줬다. 사내에서 많이 쓰는 언어에 대해서 예제를 만들고 보여줬어야 하는데 조금 아쉽기는 하다.(설명 당시에는 전혀 감을 못잡은 상태였다.)그러다 짬을내서 API와 소스를 보고 예제를 구현해 봤다. Java api is not a only way to construct map&reduce function. […]

계속 읽기

야후 본사에 있는 hadoop 클러스터 사용허가.

hadoop wiki에 밝혀져 있는 야후 본사의 클러스터 사용 허가를 신청했다. 벌써 관계자는 승인이 난 상태이고, 계정 생성만 남았다. ^^ 내용은 분산 한글 형태소 분석에 대해서 신청했고, 이번기회에 600노드클러스터를 어떤방식으로 구성했는지 살짝 엿보고, 실제 그 퍼포먼스도 어느정도 가늠해 볼수 있을거 같다. 오늘 아침부터 hadoop관련 사내 위키로 문서작성해 올리고 관계자에게 메일보내고, 만들었던 코드들 정리하고 그랬다. 재미난것은 분산처리 […]

계속 읽기

Hadoop으로 Distribute indexing을 시뮬레이션 해보고나서….

물론 아직 형태소 분석기는 작동시켜서 한건 아니였지만, 참으로 재미난 경험이였다. 문서를 (term, docids)로 만들기위해서, 문서 파싱하고 텀단위 추출하기 위한 map,reduce작업, 그리고 그것들을 역파일 구조로 만들기 위한 combine과 reduce 작업을 했다. 여기서 가장 고민을 많이 했던점은 Docid를 제너레이션 하기가 쉽지 않았다는 것이다.(이것은 피보나치 수열을 mapreduce모델로 제너레이션 하기 힘든것과 비슷한 문제다. )솔직히 Class 객체하나에 static 멤버변수를 모든 […]

계속 읽기