Crawler에 대한 추가 생각들

주말에 blog comment를 구하기 위해 오랫동안 썩혀 두었던 웹 크롤러를 꺼내들고 오랜만에 돌려 봤다. 테크노라티 분야별  top 블로거의 양질의 comment 1만건을 뽑아 왔다.  데이터를 뽑아서 좀 보니 색다른 아이디어도 생각나더라. 내 크롤러는 대용량이나 웹검색을 위해서 만든건 아니고, 100만건 이하의 웹을 크롤링 하는데 적합한 크롤러다. 노트북에 크롤러를 돌려보면서 크롤러를 대용량 검색을 위해서 바꾼다면 어떻게 해볼까 생각을 […]

계속 읽기

Dsitributed Index

예전에 Distribute Indexing에 대해서 글을 써본적이 있는데, 아주 아이디얼하게 시작 문자로 분산을 시켰었다. 오늘은 어떤것을 기준으로 대용량 분산을 하면 될지 한번 생각해 보려고 한다. 아마도 이것은 Query Processing에 대한 글과도 관련이 있을거 같다는 생각이 든다. (top k개의 결과만 가져오면 된다는 가정을 하고 기술하기 때문이다.) hadoop과 같은 mapreduce기반의 시스템은 분산시 쓰이는 function을 제공한다. 그리고 또한 이것들을 […]

계속 읽기

Machine Learning과 MapReduce는 천생연분

일반적으로 많은 데이터를 학습 시킬때 메모리나 프로세서의 부족으로 학습에 많은 시간이 걸리는 고질적인 문제가 있다. 학습 데이터의 차원이 늘어날 때마다 필요한 메모리는 기하급수적으로 늘어나기 때문인데,  코드 레벨에서나 알고리즘 레벨에서 복잡도를 줄이는건 새로운 알고리즘을 창안하지 않는이상 거의 불가능 하다.(뭔 약간의 코드 핫스팟을 찾아서 최적화를 시켜주는건 가능하겠지만.) 그래서 분산처리를 사용해 시간(전체) 복잡도를 줄이고자 하는 논문이 스텐포드에서 나왔다. […]

계속 읽기

블로그에서 수집한 spam comment 및 spam trackback의 ip 통계

약 2주동안 이곳 블로그에서 수집한 2만8천여건의 spam comment 와 trackback의 ip통계를 종합해 봤다. 약 97%의 spam들이 5%의 스팸IP에 집중되어 있었다. 국적은 유럽쪽이 가장 많았고, 그 다음이 북미, 그 다음이 동아시아쪽(대만) 인걸로 나왔다. 한국에서 돌린 스팸도 있었는데, ip정보가 파워콤이라고 나오는군. 이 결과가 전체 블로그 스피어의 결과를 대변하지는 않겠지만, 몇몇 블로거들이 함께 sampling 해본다면 한국 전체 블로그 […]

계속 읽기

외국에서 뿌린 한글 스팸들.

드디어 comment spam에 한글이 나오기 시작했다. 뭐 아이피를 보니 유럽쪽인거 같다. 나보다 맞춤법은 더 엉망인 놈이 쓴거 같군. 이런 엉망인 한글 문장은 어떻게 만들까? 번역 솔루션이 있으니 일반적인 삼삼한 단어를 조합해 쉽게 만들수 있을거란 생각은 든다. 이로서 ASCII 코드만 체킹하는 스팸 플러그인은 이제 거의 쓸모가 없어진거 같다. 저번엔 이상한 일이 있었는데 스팸 트랙백중에 링크가 야후 […]

계속 읽기

MIT Spam Conference 2007

MIT에서 Spam Conference를 하고 있는것을 알았는데, 이번 기회에 이래저래 주의깊게 논문들을 좀 봤다. 이런 외국의 잘 쓴 논문들을 보자면 대상 문제 해결에 대한 객관적인 분석이 정말 인상깊다.  철저하다 못해 처절하다. (이런 접근자세와 사고방식은 절대 절대적으로 배워야 한다.) 외국 학계에서도 Blog Spam에 상당히 관심이 많다는걸 열린 세션 수만 보더라도 알 수 있다. 이젠 E-Mail 스팸보다. 웹(blog, […]

계속 읽기

Language Model (2)

점심시간을 틈타 Language Model의 마지막 포스팅을 해본다. 먼저번 포스팅헤서 P(q|Md)를 구하는게 목적이라는 언급을 했었고, 그 값을 구하기 위한 식을 만들었다. 그럼 문서 기반으로 정확히 식을 구하기 위해 어떻게 해야 할까? 모든 쿼리에 대해서 문서에 대한 t.f(term frequency)를 구하고 문서에 존재하는 모든 텀의 갯수를 dl이라는 변수에 할당을 해서 위와 같은 식으로 model과 쿼리의 확률을 구하는것이다. 그런데 […]

계속 읽기

Language Model (1)

그동안 좀 봐뒀던 Language Model을 정리하고자 한다.사실 Language Model은 예전에 내가 보던 Information Retrival : Algorithm and Heuristic이라는 책에서 봤었지만, 정리까지는 안해봤다.(난 뭐든 정리가 필요하다.) Language Model이라함은 정보검색을 하다보면 나오는 unigram, bigram trigram이라는 말과 전혀 다르지 않다. 위 자체가 그대로 문서를 표현하는 모델링 방법이 될수 있는것이다. 각 문서 내에서 빈도수 및 여러 factor를 가지고 아래와 […]

계속 읽기

스팸 블로그 문제

오늘 간만에 올블로그에 들렀다가 스팸 블로그에 대한 포스팅을 여러개 봤다. 휴우… 한달에 600달러 정도를 adsense로 벌수 있는 그런 스팸 블로그를 만드는 사람들이 실제 있었고 툴도 있는거 같다. 그런데 그 방법이라는게 정말 기상 천외하다. 기존의 adsense로 먹고사는 순진한 사람들은 그저 인기 키워드를 근거로 해서 뉴스글을 블로그에 넣는 방법을 사용해서  트래픽을 유발함으로 수익을 얻고 있다. 한마디로 펌 […]

계속 읽기

Soundex 기법 정리하면서…

예전에 spell correction을 하기위해 edit distance를 사용할 수 있다는 이야기를 했다. 물론 포탈이나 여러곳을 가보니 다 이런 방식으로 거의 다 적용이 되어 있더라. 사실 그 당시는 잘 몰랐기도 했거니와 내 나름대로 고민하고 생각해서 올려본것인데 이미 다른 사람들도 같은 생각을 하고 있더라. 이번의 기법은 이 역시 robust한 검색 시스템을 만들기 위해 soundex를 사용하면 어떨까 하고 올려본다. […]

계속 읽기