모야… Freshness가 이렇게 좋아? 야후 블로그 검색…

이전 포스팅을 올린지 30분 정도 지났는데 야후 블로그 검색에 떡하니 나타났다.(정확히 포스팅 후에 평균적으로 얼마정도 걸리는지는 잘 모르겠지만 정말 빠른 시간임에는 분명하다.) Freshness가 좋다는 이야기를 많이 들었는데, 실제 체험하니 장난아니다.  거의 웹기반 rss 리더기 수준이구먼.. 30분만에 떡하니 나타나다.. 야후 블로그 검색이요. 검색 rss 버튼 추가해 주세요…! 검색 이야기를 하는 블로그들만 rss로 받고 싶어요. ㅎㅎ 암튼 […]

계속 읽기

Language model을 이용한 blog spam 제거 논문

2달전쯤에 내 생각과 같음에 깜짝 놀라버리고 좌절가까이 하게 했던 논문을 소개해본다. Blocking Blog Spam with Language Model Disagreement, G. Mishne, D. Carmel, and R. Lempel. In: AIRWeb ’05 – First International Workshop on Adversarial Information Retrieval on the Web, at the 14th International World Wide Web Conference (WWW2005), 2005. 위의 논문인데 2005년에 저런 생각을 먼저 […]

계속 읽기

소설보다 이상한(Stranger than fiction) 에 나오는 시계

오늘 여자친구에게 엄청난 선물을 받았다. “소설보다 이상한”이라는 영화에서 보고나서 지금까지 시계 전문점에 가서 항상 찾아보던 시계였는데 내가 가지고 싶어한다는 눈치를 챘는지 오늘 선물을 주더라.. 사실 국내에서는 이 시계를 구입할 방법은 없다. timex 시계가 많이 수입이 되고 있지만 이 시계는 찾아볼 수가 없었다. 미국에서도 영화 개봉후 엄청난 인기를 끌어버려서 더더욱이 국내에서 구입하기 힘들었는지 모르겠다. 그런데 용케도 […]

계속 읽기

지금 읽는 책이 현업 기술 수준과 어떤 차이가 있을까?

오늘 몸이 안좋은 관계로 빌빌대다가 부장님에게 뭔가 물어보러 갔다가 2시간 가까이 강의를 들었다. 오호~~~~~ 얼마전에 구한 새로운 정보검색책을 보면서 감동을 먹었던 시간이 예습시간이였다고 하면 이번엔 진짜 수업시간에 강의를 듣는 기분이였다. 강의 내용이 사실 회사에서 내부적으로 하는 부분을 제외하고는 다 얼마전에 책을 보고 터득한 부분이여서 집중도는 극상이였다. 그 부분에 대해서 책을 볼때 그저 나 자신과의 이야기만 […]

계속 읽기

논문 실험에 실패하고….

2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 […]

계속 읽기

D vs Ruby

블로그 스피어에서 어떤분이 D와 Ruby에 대한 비교글을 써놓았다. 이런 비교가 가능하다니 이 블로그 주인 참 재미있는 사람인거 같다. 내가 그 분의 글에 대해 약간의 견해를 비추기 위해 글을 써본다. 알다시피 D와 Ruby는 태생 목적 자체가 다른 언어이다. D는 생산적인 시스템 프로그래밍을 위해서 나온 언어이고, Ruby는 프로그래머에게 재미를 주는 프로그래밍을 위해 나온 언어이다. 그래서 D에서는 기존에 […]

계속 읽기

네이버 불펌 검사 시스템 – 성능

네이버의 불펌 검사 시스템이 나왔나 보다. 네이버 공식 블로그에 나온 글인데…꽤나 잘 설계되었다면 좋은 검색 결과로 보답을 하리라 생각한다. 원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다! mapreduce같은 분산처리를 이용해 이런 시스템을 구현했으리라 감히 예상해 본다. 중복 검사 프로세스는 알고리즘상 정확도와 처리복잡도간의 trade-off가 발생하기 때문에 정확한 검사를 위해 분산처리를 하지 않을수 없을것이다. 검색결과의 freshness를 위해서 저놈이 병목이 되어 […]

계속 읽기

보름동안 블로그에 걸린 스팸 ip들

스팸 ip 모은거 올려본다. 저번에 3위를 하던 놈이 1위로 등극했고, 2위 하던 놈은 부동의 2위 자리를 고수하고 있다. 그럼 1등하던 ip는 어딧나???역시나 영원한 1등은 힘든것인가? 파일 첨부합니다. XUQhkgDLu7.xls ps. 목록을 블로깅 툴에 어느정도 등록(스팸ip로)시켜 두면 여러모로 괜찮을거 같기도 하다.

계속 읽기

Spam서버 저장 구조 관련

현재 논문과는 별도로 실제 Disk Based Hash를 구현했다.(진행중??) 이것의 속사정은 이렇다. 3만여건의 comment를 training하는데 무려 3시간이 넘는 시간이 필요했기에 테스트의 역동성을 위해서 구현을 해버린 것이다. 왜 3시간이냐? 하고 묻는다면,  pos tagger를  헤집어볼 시간이 없어서였다. 이것의 입출력 인터페이스를 위해 무려 3번의 파일 writing을 해버리는 무지막지한 병목을 만들어 버렸다. 결국 어떻게든  파일 기반 해슁을 만들어 버렸으니… 쩝… […]

계속 읽기

프로그램의 완성도가 아닌 실험 자체가 목적이 되어야 하는데.

Ham: 3만건 Spam : 2만건 Test set : 2천건 Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다. 평균적으로 Spam 코멘트가 길이가 짧더라. 이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다. Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, […]

계속 읽기