외국에서 뿌린 한글 스팸들.

드디어 comment spam에 한글이 나오기 시작했다. 뭐 아이피를 보니 유럽쪽인거 같다. 나보다 맞춤법은 더 엉망인 놈이 쓴거 같군. 이런 엉망인 한글 문장은 어떻게 만들까? 번역 솔루션이 있으니 일반적인 삼삼한 단어를 조합해 쉽게 만들수 있을거란 생각은 든다. 이로서 ASCII 코드만 체킹하는 스팸 플러그인은 이제 거의 쓸모가 없어진거 같다. 저번엔 이상한 일이 있었는데 스팸 트랙백중에 링크가 야후 […]

계속 읽기

MIT Spam Conference 2007

MIT에서 Spam Conference를 하고 있는것을 알았는데, 이번 기회에 이래저래 주의깊게 논문들을 좀 봤다. 이런 외국의 잘 쓴 논문들을 보자면 대상 문제 해결에 대한 객관적인 분석이 정말 인상깊다.  철저하다 못해 처절하다. (이런 접근자세와 사고방식은 절대 절대적으로 배워야 한다.) 외국 학계에서도 Blog Spam에 상당히 관심이 많다는걸 열린 세션 수만 보더라도 알 수 있다. 이젠 E-Mail 스팸보다. 웹(blog, […]

계속 읽기

3회 테터 캠프 소감

내가 가장 좋아하고 즐겨 쓰는 블로깅 툴인 테터툴즈 그러니까 이제는 textcube라는 오픈소스 프로젝트로 불리우는 테터툴즈에 대한 전반적인 소개 컨퍼런스인 테터캠프에 다녀왔다. 이날 아마도 내가 가장 많은 질문을 하지 않았나 할 정도로 평소 궁금하던것에 대해서 많은 질문을 했던거 같다. (난 목소리가 크다는 이유로 마이크도 안잡고 질문했다. ㅋ ) 블로그에 굉장한 애정이 있었고, 또한 테터툴즈에 애정을 가지고 […]

계속 읽기

Language Model (2)

점심시간을 틈타 Language Model의 마지막 포스팅을 해본다. 먼저번 포스팅헤서 P(q|Md)를 구하는게 목적이라는 언급을 했었고, 그 값을 구하기 위한 식을 만들었다. 그럼 문서 기반으로 정확히 식을 구하기 위해 어떻게 해야 할까? 모든 쿼리에 대해서 문서에 대한 t.f(term frequency)를 구하고 문서에 존재하는 모든 텀의 갯수를 dl이라는 변수에 할당을 해서 위와 같은 식으로 model과 쿼리의 확률을 구하는것이다. 그런데 […]

계속 읽기

Language Model (1)

그동안 좀 봐뒀던 Language Model을 정리하고자 한다.사실 Language Model은 예전에 내가 보던 Information Retrival : Algorithm and Heuristic이라는 책에서 봤었지만, 정리까지는 안해봤다.(난 뭐든 정리가 필요하다.) Language Model이라함은 정보검색을 하다보면 나오는 unigram, bigram trigram이라는 말과 전혀 다르지 않다. 위 자체가 그대로 문서를 표현하는 모델링 방법이 될수 있는것이다. 각 문서 내에서 빈도수 및 여러 factor를 가지고 아래와 […]

계속 읽기

처음 검색엔진 개발을 했을때…

잉카 인터넷이라는 회사에서 처음 검색엔진이라는 것을 만져봤다. 그곳에서 연구했던 것들이 지금에서는 나의 큰 자산으로 작용하고 있는건 부정할 수 없는 사실이다. 안타깝게도 그곳에서 만든 Kimap이라는 Knowledge Map이라는 뜻의 검색엔진은 회사 Product에서 제외가 되어 버렸다. 얼마전까지만 해도 있더니만, 결국 없어지고 말았다. 엔진의 모티베이션이 되는것은 자동분류라는것이였다. 이 엔진팀에 같이 있었던 친구는 현재 대학4학년인데, 그 친구가 첫눈이 나왔던 시절에 […]

계속 읽기

알고리즘 좋은 사이트들

개발자로서 algorithm과 data structure를 항상 염두에 두고 개발을 해야하고 문제 해결을 위해 어떤것을 사용해야 할지 고민을 하는것은 필수라고 생각한다. 개발자로서 대량의 데이터를 처리할시 알고리즘을 조금 손보고  엄청난 퍼포먼스 향상이 있었던 경우를 겪어본 분들은 분명 공감하리라 생각한다. 자신이 잠시동안 이러한 것들에 대해서 잊고 살았다고 생각하는 분들은 강좌를 찾아보는 방법도 괜찮은 방법이라고 생각한다. 찾아보면 여러곳에서 알고리즘 강좌를 […]

계속 읽기

스팸 블로그 문제

오늘 간만에 올블로그에 들렀다가 스팸 블로그에 대한 포스팅을 여러개 봤다. 휴우… 한달에 600달러 정도를 adsense로 벌수 있는 그런 스팸 블로그를 만드는 사람들이 실제 있었고 툴도 있는거 같다. 그런데 그 방법이라는게 정말 기상 천외하다. 기존의 adsense로 먹고사는 순진한 사람들은 그저 인기 키워드를 근거로 해서 뉴스글을 블로그에 넣는 방법을 사용해서  트래픽을 유발함으로 수익을 얻고 있다. 한마디로 펌 […]

계속 읽기

푸코의 진자에서 순열 문제가….

어제 오늘 그동안 시간이 없어 미뤄두었던 움베르트 에코의 “푸코의 진자“를 정말 흥미롭게 보고 있다. 보면서 카소봉라는 주인공으로 사료되는 인물이 벨보의 컴퓨터의 암호를 알아맞추는 과정에서 프로그래밍을 해서 순열을 구하고 그 순열의 나열 순서에 따른 답을 입력하는 부분이 나온다. 책에서는 Basic프로그램으로 4개의 char의 경우에 대한 프로그래밍 예제가 나오고 그것을 이용해서 카소보가 permutation 프로그래밍을 하는 대목으로 이어지는 것이다. […]

계속 읽기

성적공시와 논문 세미나…

수업이 있는 마지막 학기를 All A+로 마무리 했다. 이로서 대학원 평점은 4.5 만점에 4.5가 확실시 되었다. 휴~~ 솔직히 편하게 갈 수 있었던 수업들 이였는데, 업무 연관성과 나의 관심도에 따라서 수업을 선택해서 듣기가 정말 힘들었다. 수업을 선택한다는것은 어느정도 시간 투자의 여력을 나 자신이 판단하는 과정을 거쳐야 한다. 어느 한계점 이상의 시간을 투자하기란 셀러던트로서 정말 불가능한 문제다. […]

계속 읽기