Machine Learning과 MapReduce는 천생연분

일반적으로 많은 데이터를 학습 시킬때 메모리나 프로세서의 부족으로 학습에 많은 시간이 걸리는 고질적인 문제가 있다. 학습 데이터의 차원이 늘어날 때마다 필요한 메모리는 기하급수적으로 늘어나기 때문인데,  코드 레벨에서나 알고리즘 레벨에서 복잡도를 줄이는건 새로운 알고리즘을 창안하지 않는이상 거의 불가능 하다.(뭔 약간의 코드 핫스팟을 찾아서 최적화를 시켜주는건 가능하겠지만.) 그래서 분산처리를 사용해 시간(전체) 복잡도를 줄이고자 하는 논문이 스텐포드에서 나왔다. […]

계속 읽기

블로그에서 수집한 spam comment 및 spam trackback의 ip 통계

약 2주동안 이곳 블로그에서 수집한 2만8천여건의 spam comment 와 trackback의 ip통계를 종합해 봤다. 약 97%의 spam들이 5%의 스팸IP에 집중되어 있었다. 국적은 유럽쪽이 가장 많았고, 그 다음이 북미, 그 다음이 동아시아쪽(대만) 인걸로 나왔다. 한국에서 돌린 스팸도 있었는데, ip정보가 파워콤이라고 나오는군. 이 결과가 전체 블로그 스피어의 결과를 대변하지는 않겠지만, 몇몇 블로거들이 함께 sampling 해본다면 한국 전체 블로그 […]

계속 읽기

금일 모 언론사 컨설팅(?) 내용

어제 교수님과 식사겸 논문 세미나를 했는데, 국내 모 언론사에 다니시는 대학원 원우님께서 나의 논문주제에 이번에도 상당한 관심을 보이셨다.그런데 아니다 다를까 오늘 전화를 하셔서 많은 내용을 물어보셨다. 문제는 덧글 스팸에 대한건데, 요즘 이놈이 글을 읽는데 상당한 재미를 제공해 주기도 하지만 그와 반면에 엄청난 스팸이 달려서 이것때문에 골치가 아프다는 말씀을 하셨다. (요즘 악플도 문제다. 그 종교문제로 인한….) […]

계속 읽기

영어 Blog comment 구합니다.(2)

블로그 comment 및 tracback 스팸 2만여건을 구했다. 왜 진작에 이런 생각을 못했는지.. ㅜㅜ 바로 EAS(Eolin Anti SpamServer)라는 플러그인을 살짝 바꿔서 스팸인 comment들을 파일로 저장하게끔 만들었고, 또한 코드를 확인해서 DB 쓰레기통에 있던 spam 처리된 comment 와 trackback을 찾아내서 백업했다. EAS 내부적으로 잠깐 소스를 보자면 1. 10개정도의 중복 comment가 달릴경우 blocking한다. (이것은 내부 DB를 이용한다.)2. 1번에서 필터링 […]

계속 읽기

영어 Blog comment 구합니다.

논문을 쓴는데 trining set을 구하는게 제일 힘든 문제인거 같다. 심지어 이런 문제가 주제를 판가름 하는 factor로 작용할 수도 있다니.. 쩝. 안타까운 현실이군. 1. 일단 구하지 못한다면, crawler를 써서 크롤링 하는 방법을 생각할 수 있겠다.2. spam 판정을 하기위해 알바라도 써야될거 같다. 그리고 blog comment를 살 수 있는 사이트도 있는거 같은데, 돈 조금 주고 사버릴까도 하네. 근데 […]

계속 읽기

외국에서 뿌린 한글 스팸들.

드디어 comment spam에 한글이 나오기 시작했다. 뭐 아이피를 보니 유럽쪽인거 같다. 나보다 맞춤법은 더 엉망인 놈이 쓴거 같군. 이런 엉망인 한글 문장은 어떻게 만들까? 번역 솔루션이 있으니 일반적인 삼삼한 단어를 조합해 쉽게 만들수 있을거란 생각은 든다. 이로서 ASCII 코드만 체킹하는 스팸 플러그인은 이제 거의 쓸모가 없어진거 같다. 저번엔 이상한 일이 있었는데 스팸 트랙백중에 링크가 야후 […]

계속 읽기

MIT Spam Conference 2007

MIT에서 Spam Conference를 하고 있는것을 알았는데, 이번 기회에 이래저래 주의깊게 논문들을 좀 봤다. 이런 외국의 잘 쓴 논문들을 보자면 대상 문제 해결에 대한 객관적인 분석이 정말 인상깊다.  철저하다 못해 처절하다. (이런 접근자세와 사고방식은 절대 절대적으로 배워야 한다.) 외국 학계에서도 Blog Spam에 상당히 관심이 많다는걸 열린 세션 수만 보더라도 알 수 있다. 이젠 E-Mail 스팸보다. 웹(blog, […]

계속 읽기

3회 테터 캠프 소감

내가 가장 좋아하고 즐겨 쓰는 블로깅 툴인 테터툴즈 그러니까 이제는 textcube라는 오픈소스 프로젝트로 불리우는 테터툴즈에 대한 전반적인 소개 컨퍼런스인 테터캠프에 다녀왔다. 이날 아마도 내가 가장 많은 질문을 하지 않았나 할 정도로 평소 궁금하던것에 대해서 많은 질문을 했던거 같다. (난 목소리가 크다는 이유로 마이크도 안잡고 질문했다. ㅋ ) 블로그에 굉장한 애정이 있었고, 또한 테터툴즈에 애정을 가지고 […]

계속 읽기

Language Model (2)

점심시간을 틈타 Language Model의 마지막 포스팅을 해본다. 먼저번 포스팅헤서 P(q|Md)를 구하는게 목적이라는 언급을 했었고, 그 값을 구하기 위한 식을 만들었다. 그럼 문서 기반으로 정확히 식을 구하기 위해 어떻게 해야 할까? 모든 쿼리에 대해서 문서에 대한 t.f(term frequency)를 구하고 문서에 존재하는 모든 텀의 갯수를 dl이라는 변수에 할당을 해서 위와 같은 식으로 model과 쿼리의 확률을 구하는것이다. 그런데 […]

계속 읽기