SVM을 이용한 스팸 블로그 분류 논문

요즘 여러 외국 학술대회에서 스팸 블로그 관련 문서들이 쏟아져 나오고 있어서 참 재밋는 논문을 많이 보고 있다. 그중에서도 Detecting Spam Blog: A Machine Learning Approach의 논문을 요며칠 저녁에 잠깐 보고 오늘 몇몇 관련 자료를 찾아봤는데, 참 재미있었다. 이 논문에서 Spam Blog Detection을 하는데 중요한 local feature와 link feature가 함께 서로 보완되어서 쓰여야 한다고 이야기 하고 […]

계속 읽기

Language model을 이용한 blog spam 제거 논문

2달전쯤에 내 생각과 같음에 깜짝 놀라버리고 좌절가까이 하게 했던 논문을 소개해본다. Blocking Blog Spam with Language Model Disagreement, G. Mishne, D. Carmel, and R. Lempel. In: AIRWeb ’05 – First International Workshop on Adversarial Information Retrieval on the Web, at the 14th International World Wide Web Conference (WWW2005), 2005. 위의 논문인데 2005년에 저런 생각을 먼저 […]

계속 읽기

보름동안 블로그에 걸린 스팸 ip들

스팸 ip 모은거 올려본다. 저번에 3위를 하던 놈이 1위로 등극했고, 2위 하던 놈은 부동의 2위 자리를 고수하고 있다. 그럼 1등하던 ip는 어딧나???역시나 영원한 1등은 힘든것인가? 파일 첨부합니다. XUQhkgDLu7.xls ps. 목록을 블로깅 툴에 어느정도 등록(스팸ip로)시켜 두면 여러모로 괜찮을거 같기도 하다.

계속 읽기

Spam서버 저장 구조 관련

현재 논문과는 별도로 실제 Disk Based Hash를 구현했다.(진행중??) 이것의 속사정은 이렇다. 3만여건의 comment를 training하는데 무려 3시간이 넘는 시간이 필요했기에 테스트의 역동성을 위해서 구현을 해버린 것이다. 왜 3시간이냐? 하고 묻는다면,  pos tagger를  헤집어볼 시간이 없어서였다. 이것의 입출력 인터페이스를 위해 무려 3번의 파일 writing을 해버리는 무지막지한 병목을 만들어 버렸다. 결국 어떻게든  파일 기반 해슁을 만들어 버렸으니… 쩝… […]

계속 읽기

블로그에서 수집한 spam comment 및 spam trackback의 ip 통계

약 2주동안 이곳 블로그에서 수집한 2만8천여건의 spam comment 와 trackback의 ip통계를 종합해 봤다. 약 97%의 spam들이 5%의 스팸IP에 집중되어 있었다. 국적은 유럽쪽이 가장 많았고, 그 다음이 북미, 그 다음이 동아시아쪽(대만) 인걸로 나왔다. 한국에서 돌린 스팸도 있었는데, ip정보가 파워콤이라고 나오는군. 이 결과가 전체 블로그 스피어의 결과를 대변하지는 않겠지만, 몇몇 블로거들이 함께 sampling 해본다면 한국 전체 블로그 […]

계속 읽기

금일 모 언론사 컨설팅(?) 내용

어제 교수님과 식사겸 논문 세미나를 했는데, 국내 모 언론사에 다니시는 대학원 원우님께서 나의 논문주제에 이번에도 상당한 관심을 보이셨다.그런데 아니다 다를까 오늘 전화를 하셔서 많은 내용을 물어보셨다. 문제는 덧글 스팸에 대한건데, 요즘 이놈이 글을 읽는데 상당한 재미를 제공해 주기도 하지만 그와 반면에 엄청난 스팸이 달려서 이것때문에 골치가 아프다는 말씀을 하셨다. (요즘 악플도 문제다. 그 종교문제로 인한….) […]

계속 읽기

영어 Blog comment 구합니다.(2)

블로그 comment 및 tracback 스팸 2만여건을 구했다. 왜 진작에 이런 생각을 못했는지.. ㅜㅜ 바로 EAS(Eolin Anti SpamServer)라는 플러그인을 살짝 바꿔서 스팸인 comment들을 파일로 저장하게끔 만들었고, 또한 코드를 확인해서 DB 쓰레기통에 있던 spam 처리된 comment 와 trackback을 찾아내서 백업했다. EAS 내부적으로 잠깐 소스를 보자면 1. 10개정도의 중복 comment가 달릴경우 blocking한다. (이것은 내부 DB를 이용한다.)2. 1번에서 필터링 […]

계속 읽기

영어 Blog comment 구합니다.

논문을 쓴는데 trining set을 구하는게 제일 힘든 문제인거 같다. 심지어 이런 문제가 주제를 판가름 하는 factor로 작용할 수도 있다니.. 쩝. 안타까운 현실이군. 1. 일단 구하지 못한다면, crawler를 써서 크롤링 하는 방법을 생각할 수 있겠다.2. spam 판정을 하기위해 알바라도 써야될거 같다. 그리고 blog comment를 살 수 있는 사이트도 있는거 같은데, 돈 조금 주고 사버릴까도 하네. 근데 […]

계속 읽기

외국에서 뿌린 한글 스팸들.

드디어 comment spam에 한글이 나오기 시작했다. 뭐 아이피를 보니 유럽쪽인거 같다. 나보다 맞춤법은 더 엉망인 놈이 쓴거 같군. 이런 엉망인 한글 문장은 어떻게 만들까? 번역 솔루션이 있으니 일반적인 삼삼한 단어를 조합해 쉽게 만들수 있을거란 생각은 든다. 이로서 ASCII 코드만 체킹하는 스팸 플러그인은 이제 거의 쓸모가 없어진거 같다. 저번엔 이상한 일이 있었는데 스팸 트랙백중에 링크가 야후 […]

계속 읽기

새로 관심을 가지는 분야…

스팸 처리 관련된 분야다. 그래서 책을 보고 있는데 이거 참 무척이나 잼나다. ending spam 이라는 책인데, 사파리북에서 온라인으로 읽다가 뽐뿌질 받아서 구입한 책이다. (야후 직원이면 누구나 사파리 북에서 공짜로 책을 볼 수 있다. 나처럼 책을 좋아하는 사람은 정말 좋은 제도가 아닐수 없다.) 스팸 필터링이 검색엔진과 정말 비슷한 점 몇가지를 꼽는다면… 1. 사용자(스패머)의 의도를 파악해야 한다.2. […]

계속 읽기