스팸 클러스터 알고리즘 평가 방법과 논문 실험 결과

이번에 논문을 쓰면서 내가 아는 가장 최다의 클러스터링 성능 측정 방법을 써서 평가했다. 야후에 와서도 느낀거고 논문을 쓰면서도 느낀거지만 알고리즘 자체를 만드는 것만큼 중요한것이 이 알고리즘이 어느정도 성능 향상은 없는지 다각도로 그리고 심층적으로 체크해 보는 일이였다. 실험 그 결과에 대해서 객관적인 결론을 낸 결과가 다른 알고리즘을 개발하기 위한 어떤 시발점이 되지 않다 하는 생각을 해본다. […]

계속 읽기

외국에서 뿌린 한글 스팸들.

드디어 comment spam에 한글이 나오기 시작했다. 뭐 아이피를 보니 유럽쪽인거 같다. 나보다 맞춤법은 더 엉망인 놈이 쓴거 같군. 이런 엉망인 한글 문장은 어떻게 만들까? 번역 솔루션이 있으니 일반적인 삼삼한 단어를 조합해 쉽게 만들수 있을거란 생각은 든다. 이로서 ASCII 코드만 체킹하는 스팸 플러그인은 이제 거의 쓸모가 없어진거 같다. 저번엔 이상한 일이 있었는데 스팸 트랙백중에 링크가 야후 […]

계속 읽기

포탈 블로그는 쓰레기들로 가득 차 있다.

몇일전 typos 큰형님과 맥주한잔을 하면서 이런저런 이야기를 했다. 현재 블로그 데이터를 시기별로 수집하고 계시는데. 수억건의 블로그 포스트중에 스팸이 엄청나다는 말씀을 하셨다. 그런데 재밋는건…. 포탈 블로그만 빼고 검색해보면 스팸은 확~~아~~악 줄어버린다는 말씀도 빼놓지 않으셨다. 예전에 무수한 펌질 블로그로 가득찬 네이버에 한방 먹이기 위해 구글이 들어왔다는 서명덕 기자님의 동영상이 순전히 상상력만으로 만들어진게 아님을 알 수 있었다. (based […]

계속 읽기