comment spam server 발표

오늘 comment spam server 제작발표를 했다. 이번 학기 내내 심지어 미국에 출장가서까지 호텔서 코딩하게 만든 spam server여서 그런지,  신나게 발표했다. 게다가 시연까지 성공적이였다. 정확하게 스팸 comment가 날라오는 상황을 재현하려고 임시적으로 client도 구현해서 테스트 했다. 이거 vmware player에서 debian linux를 띄워서 테스트를 했는데, 로컬 리눅스 머신에서 직접 돌릴때보다 2배정도의 학습시간이 소요되는거 같았다. 구형 노트북이라서 그러려니 했지만 […]

계속 읽기

search engineer로서 comment spam에 관심을 가지는 이유는…

계속 검색엔진 포스팅만 하다가 뜬금없이 comment spam에 관심을 가지는 이유가 있다. 물론 spam문제가 기본적으로 분류의 문제기도 해서 전혀 검색과 다른 분야는 아니라고 생각한다. 그렇지만 내가 spam에 관심을 가지는 이유는 그것도 comment spam에 관심을 가지는 이유는 웹검색 랭킹에 이것들이 영향을 미치기 때문이다. 개인적으로 내 포스트를 복사해서 여러곳에 올리는것도 전혀 좋아하지 않는다, 왜냐면 그것은 검색엔지니어에게 중복처리에 관련된 […]

계속 읽기

Technorati 블로그 랭킹 개선

Technorati 블로그 검색서비스가 랭킹에서 Authority를 추가했다고 한다. “Technorati Authority is the number of blogs linking to a website in the last six months. The higher the number, the more Technorati Authority the blog has.” Authority를 6개월동안의 것만 취급하는구나. 좋은 아이디어 같다.(Authority는 HITS알고리즘의 개념이다. PageRank와 아주 유사한 알고리즘이다.) PageRank알고리즘도 저렇게 하면 오래된 문서가 계속 상위에 랭크되는걸 […]

계속 읽기

새로 관심을 가지는 분야…

스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다. ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.) 스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면… 1. 사용자(스패머)의 의도를 파악해야 한다.2. […]

계속 읽기

About Hadoop Streaming

Hadoop을 처음에 Java로만 접근을 했다. 물론 Java API가 기본이기 때문에 그럴것이다.물론 저번주 사내 Tech Talk에서도 Java Code만 공개해서 예제를 보여줬다. 사내에서 많이 쓰는 언어에 대해서 예제를 만들고 보여줬어야 하는데 조금 아쉽기는 하다.(설명 당시에는 전혀 감을 못잡은 상태였다.)그러다 짬을내서 API와 소스를 보고 예제를 구현해 봤다. Java api is not a only way to construct map&reduce function. […]

계속 읽기

야후 본사에 있는 hadoop 클러스터 사용허가.

hadoop wiki에 밝혀져 있는 야후 본사의 클러스터 사용 허가를 신청했다. 벌써 관계자는 승인이 난 상태이고, 계정 생성만 남았다. ^^ 내용은 분산 한글 형태소 분석에 대해서 신청했고, 이번기회에 600노드클러스터를 어떤방식으로 구성했는지 살짝 엿보고, 실제 그 퍼포먼스도 어느정도 가늠해 볼수 있을거 같다. 오늘 아침부터 hadoop관련 사내 위키로 문서작성해 올리고 관계자에게 메일보내고, 만들었던 코드들 정리하고 그랬다. 재미난것은 분산처리 […]

계속 읽기

Hadoop으로 Distribute indexing을 시뮬레이션 해보고나서….

물론 아직 형태소 분석기는 작동시켜서 한건 아니였지만, 참으로 재미난 경험이였다. 문서를 (term, docids)로 만들기위해서, 문서 파싱하고 텀단위 추출하기 위한 map,reduce작업, 그리고 그것들을 역파일 구조로 만들기 위한 combine과 reduce 작업을 했다. 여기서 가장 고민을 많이 했던점은 Docid를 제너레이션 하기가 쉽지 않았다는 것이다.(이것은 피보나치 수열을 mapreduce모델로 제너레이션 하기 힘든것과 비슷한 문제다. )솔직히 Class 객체하나에 static 멤버변수를 모든 […]

계속 읽기

주말에 고민해본 Distribute Spam sniping.

전에 포스팅에서 구글 엔지니어에게 Map&Reduce가 어디에 쓰이는지 여쭈어 본적이 있었다고 글을 썼다. 오늘 스팸 처리 알고리즘 모듈을 생각하다가, 이거 스팸처리 하는 확률을 계산하는데, complexity가 상당히 높게 나오고, 스팸 리포팅들어오면 거의 모든 텀의 스팸 확률을 재계산 해야 한다는 그런 어려움(?) 생길거 같다는 생각을 해보다가, 결국 MapReduce로 분산처리를 해볼수 있을거라는 생각을 해봤다. 만일 스팸처리 자체가 텀의 독립성 […]

계속 읽기

Hadoop을 보면서

약 4일동안 Hadoop을 가지고 놀고 있다. 논다기 보다는, 약간의 삽질과 개념 이해를 위해 코딩 약간… 정도. (가장 힘들었던것은 역시나 한글 코드가 깨지는 것이였다. 물론 하루 반나절만에 해결을 했다. 이런 삽질은 역시나 빨리 해결하려고 하는게 정신 건강에 좋다. 이자리는 빌어 김형준님에게 감사드린다. JVM fork관련된 충고가 없었다면 이렇게 빠르게 해결하지 못했을 것이다.) 전에 Distribute Sort에 대해서 한번정도 […]

계속 읽기

pagerank 단점 보완할수 있을까?

Pagerank의 가장 큰 문제점은 좋은 글이 시간이 가면 갈수록 너무 유명해져서 새롭게 등장하는 좋은 글이 랭킹의 위로 올라갈 기회를 안준다는데 있다. 물론 구글에서도 이런것에 대한 개선사항이 있었겠지만, 어제 화장실에서 철학책을 뒤적이면서 링크 정보를 활용한 랭킹시스템에 위의 문제를 개선할 좋은 방법을 생각해 냈다. 상대적인것과 절대적인 것의 의미의 차이를 잘 생각해보면 알수 있다. 다만 구현상에 중요한것은 링크정보를 […]

계속 읽기