SVM을 이용한 스팸 블로그 분류 논문

요즘 여러 외국 학술대회에서 스팸 블로그 관련 문서들이 쏟아져 나오고 있어서 참 재밋는 논문을 많이 보고 있다. 그중에서도 Detecting Spam Blog: A Machine Learning Approach의 논문을 요며칠 저녁에 잠깐 보고 오늘 몇몇 관련 자료를 찾아봤는데, 참 재미있었다. 이 논문에서 Spam Blog Detection을 하는데 중요한 local feature와 link feature가 함께 서로 보완되어서 쓰여야 한다고 이야기 하고 […]

계속 읽기

학습 코퍼스

항상 뭔가 대학에서 실험을 하든지간에 가장 힘든 부분이 학습데이터 수집하고 분류하는 작업일거란 생각이 든다. 그래서 산학 연계측면에서 기업에서 학습 코퍼스를 제공하는 경우가 있는데 그런식으로 제공이 된 학습 코퍼스가 아닐까 한다. web spam challenge 내가 알기로는 위의 데이터가 야후 리서치랩에서 공개가 된것으로 알고있는데 상세한 것은 잘 모르겠다. ^^;아마도 웹 스팸에 대해서 연구하는 분들에게는 정말 필요한 자료가 […]

계속 읽기

학습 전략

학습이라고 해서 공부하는걸 의미하는건 아니고 Machine Learning에서의 학습을 의미한다. 나도 처음에 그랬지만 ML학습하는 과정을 아래와 같이 수행을 하곤한다. 대부분의  ML 초심자들도 마찬가지라 생각한다. 1. 분류하고자 하는 문서정보를 입력 데이터 형식으로 변환한다.2. 분류기의 파라메터 값을 랜덤하게 선택해서 학습을 시킨다.3. 테스트 해보고 가장 좋은 파라메터를 선택한다. 위의 과정에서 가장 문제시 되고 있는것이 바로 학습기의 파라메터인데 이 부분에 […]

계속 읽기

논문 수정 사항 수정 후

논문 수정 작업 후 교수님께 도장 받고 교수님하고 이런저런 이야기를 했다. 1. 공부 더 할 생각 있냐? 2. 영어로 논문 써라. 공부더 하라는 말씀은 바로 박사과정 이야기 하시는거 같다. 물론 박사과정을 밟을 생각은 있지만 지금은 아니라고 생각한다. 석사논문을 써보고 하면서 충분히 혼자서도 이제는 실험하고 결론을 낼 수 있을만한 연습은 했다고 생각한다. 이제 중요한건 창의적인 사고력하고 […]

계속 읽기

블로그 트래픽 초과하다. ㅜㅜ

금일 오후 5시경 아래와 같은 페이지를 보여주며 블로그 접근이 제한되었다. 급하게 메모할일이 있어서 블로그에 적어 넣을라고 그랬는데, 좀 암담하더라… 그동안 그림 파일올리고 첨부파일 올리는데 용량을 그렇게 따지지 않고 올렸는데 결국 이런 사태가 벌어졌다. 에궁…어뷰징 하는 놈을 찾아내볼라고 했는데, 하나로 텔레콤의 ip라는거 정보만 추적했다. 자세한건 로그를 더 보고 판단해 봐야겠다. 500M 추가 트래픽 신청에 8만원정도 들어간다는데, […]

계속 읽기

내년에 D언어 책이 많이 나올듯

조만간 Learn to Tango with D 라는 책이 출간 된단다. 이미, 독일어책과 일본어로 쓰인 책은 출간이 되었지만 이것이 첫번째 책으로서 의미는 더 있지 않을까 한다.(리뷰어가 D언어를 만든 walter 라고 한다. ) preorder는 아마존에서 가능하고 12월 초에 출간이 되는것으로 나와 있지만 몇군데 알아본 결과 여러가지 이유로 인해서 내년 1월에 출간할거 같다고 한다. Apress에서 First Press라는 미명하에 […]

계속 읽기

아버지가 물려주신 가장 큰 자산

나에겐 아버지가 물려주신 가장 큰 자산이 있다. 아마도 이 자산을 기반으로 지금껏 성장해 오지 않았을까 하는 생각이 들 정도로 말이다. 바로 독서하는 습관이다. 내 어릴적 기억으로는 아버지가 책 읽는 모습이 참 기억에 많이 남아있다. 방학때 그런 모습을 자주 볼 수 있었는데, 예전에 숙직이라는게 있는 날이면 아침에 아버지가 회사에서 오셔서 아침식사가 나올때까지 책을 보시는 모습이 눈에 […]

계속 읽기

네이버의 Query 마이닝

컨텐츠검색 스토리(2) – 컨텐츠검색은 어떻게 만들어질까 라는 글을 보다가 쿼리 자동완성에 마이닝 기술과 클러스터링 기술이 들어 갔다고 해서 생각 좀 해봤다. 문제의 그림…. 요걸 보니까.. 딱 생각나는 방법이 있다. 쿼리의 유형을 빠르게 분석하기 위해서는 형태소 분석의 방법을 쓰는게 좋을까?개인적으로는 n-gram방법이 효율적이라고 생각한다.  특히나 다국어나 인터넷 신조어 처리를 해야 한다면 말이다.위의 결과를 보자면 “꽃보다남자”라는게 클러스터링 되어서 […]

계속 읽기

문서집합에서 문서 상호 빈도수가 높은 feature 셋을 뽑아내는 알고리즘

요즘 Text Mining Handbook을 보고 있는데, 예전에 보지 못한 알고리즘이 나와서 한번 적어본다. 처음 보는 알고리즘인데, 이미 나온지 꽤 된 많은곳에 쓰이는 알고리즘 이란다. ^^; 특정 카테고리의 문서집합에서 빈도수가 높은 컨셉을 뽑아내는 알고리즘으로 support와 Confidence라는 개념으로 이루어져 있다. support는 주어진 룰을 포함하는 문서의 빈도수를 의미하고, confidence는 그 룰이 참이라고 생각할 수 있는 휴리스틱한 threshold를 의미한다. […]

계속 읽기

마지막(?) 장학금

기다리고 기다리던 장학금 소식이다. 이로서 장학금을 4학기 풀로 받았다. 이렇게 4학기 내내 장학금을 주신 교수님께 먼저 감사드린다. 이번학기 성적에 대한 장학금은 아니고 저번학기 성적에 대한 장학금인데, 이제야 결과가 나왔다. 저번학기때 이직문제, 논문이라든지 빡신 수업때문에 많이 힘들었던 학기였는데 다행히 성적도 잘 나오고 이렇게 장학금도 받게 되었다. 이게 내가 내 인생에서 탈 수 있는 마지막 장학금이 될지 […]

계속 읽기