D Language.

요즘 D Language에 빠져 있다. 엇그제 새벽에 처음 접하고 어제 오늘 퇴근후에 Language Spec을 열심히 보구, 코딩 몇줄 해보고 하면서 뭔가 임펙트를 받고 있다. 코드 자체가 C, C++언어와 유사하고, 어찌보면 Java와도 유사하게 보이기도 한다.(자바가 C, C++과 유사하긴 하지만)  무엇보다 가장 좋은건, 내가 좋아하는 C 스타일의 코딩이 가능하고, 게다가  C에서 불편하게만 생각했던 부분에 대한 개선이 많이 […]

계속 읽기

Technorati 블로그 랭킹 개선

Technorati 블로그 검색서비스가 랭킹에서 Authority를 추가했다고 한다. “Technorati Authority is the number of blogs linking to a website in the last six months. The higher the number, the more Technorati Authority the blog has.” Authority를 6개월동안의 것만 취급하는구나. 좋은 아이디어 같다.(Authority는 HITS알고리즘의 개념이다. PageRank와 아주 유사한 알고리즘이다.) PageRank알고리즘도 저렇게 하면 오래된 문서가 계속 상위에 랭크되는걸 […]

계속 읽기

새로 관심을 가지는 분야…

스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다. ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.) 스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면… 1. 사용자(스패머)의 의도를 파악해야 한다.2. […]

계속 읽기

About Hadoop Streaming

Hadoop을 처음에 Java로만 접근을 했다. 물론 Java API가 기본이기 때문에 그럴것이다.물론 저번주 사내 Tech Talk에서도 Java Code만 공개해서 예제를 보여줬다. 사내에서 많이 쓰는 언어에 대해서 예제를 만들고 보여줬어야 하는데 조금 아쉽기는 하다.(설명 당시에는 전혀 감을 못잡은 상태였다.)그러다 짬을내서 API와 소스를 보고 예제를 구현해 봤다. Java api is not a only way to construct map&reduce function. […]

계속 읽기

야후 본사에 있는 hadoop 클러스터 사용허가.

hadoop wiki에 밝혀져 있는 야후 본사의 클러스터 사용 허가를 신청했다. 벌써 관계자는 승인이 난 상태이고, 계정 생성만 남았다. ^^ 내용은 분산 한글 형태소 분석에 대해서 신청했고, 이번기회에 600노드클러스터를 어떤방식으로 구성했는지 살짝 엿보고, 실제 그 퍼포먼스도 어느정도 가늠해 볼수 있을거 같다. 오늘 아침부터 hadoop관련 사내 위키로 문서작성해 올리고 관계자에게 메일보내고, 만들었던 코드들 정리하고 그랬다. 재미난것은 분산처리 […]

계속 읽기

Hadoop으로 Distribute indexing을 시뮬레이션 해보고나서….

물론 아직 형태소 분석기는 작동시켜서 한건 아니였지만, 참으로 재미난 경험이였다. 문서를 (term, docids)로 만들기위해서, 문서 파싱하고 텀단위 추출하기 위한 map,reduce작업, 그리고 그것들을 역파일 구조로 만들기 위한 combine과 reduce 작업을 했다. 여기서 가장 고민을 많이 했던점은 Docid를 제너레이션 하기가 쉽지 않았다는 것이다.(이것은 피보나치 수열을 mapreduce모델로 제너레이션 하기 힘든것과 비슷한 문제다. )솔직히 Class 객체하나에 static 멤버변수를 모든 […]

계속 읽기

conv2님의 책이 강컴 베스트셀러에 두권이나….

평소 절친한(?) 사이인 conv2님이 요즘 신나셨다. 왜냐면 자신이 쓰신 책이 강컴 베스트셀러에 2권이나 오른것이다. 오픈소스 OpenCV를 이용한 컴퓨터 비전 실무 프로그래밍 : 기본편 오픈소스 CxImage를 이용한 Visual C++ 디지털 영상처리 2번째 책은 사인도 당시 받아서 봤는데, 요즘에 나온 첫번째 책은 아직 받지 못했다. 아마도 강남교보문고에서 또 다시 함깨 서점 습격을 같이 할때 주신다고 했으니 믿어볼 […]

계속 읽기

주말에 고민해본 Distribute Spam sniping.

전에 포스팅에서 구글 엔지니어에게 Map&Reduce가 어디에 쓰이는지 여쭈어 본적이 있었다고 글을 썼다. 오늘 스팸 처리 알고리즘 모듈을 생각하다가, 이거 스팸처리 하는 확률을 계산하는데, complexity가 상당히 높게 나오고, 스팸 리포팅들어오면 거의 모든 텀의 스팸 확률을 재계산 해야 한다는 그런 어려움(?) 생길거 같다는 생각을 해보다가, 결국 MapReduce로 분산처리를 해볼수 있을거라는 생각을 해봤다. 만일 스팸처리 자체가 텀의 독립성 […]

계속 읽기

springnote에서 doku wiki로 옮김

스프링노트 정말 좋은 툴이다, 게다가 이 곳에다가 정말 나의 아이디어를 메모하는 용도로 많이 썼는데, conv2님이 이곳 약관이 이상하다는 이야기를 하셔서 내 계정의 wiki로 옮긴다.   제 15 조 (게시물에 대한 저작권) 회원이 단독으로 또는 공동으로 서비스 내에 작성한 게시물의 저작권은 게시한 회원에게 귀속됩니다. 회원은 게시물의 다른 사람에게 자신의 저작물의 이용을 허락할 수 있고, 이용허락을 받은 […]

계속 읽기