Web Data Mining 강의

회사서 웹검색을 하고 있는 관계로 대학원 생활동안 웹마이닝에 대한 공부 욕구가 컷으나, 개설이 한번도 된적이 없어 입맛만 다시고 있었다. 그러다… 이번 학기에 웹 데이터 마이닝 과목이 개설 되었다는 이야기를 듣고 정말 갈까 말까 고민하다가 청강을 하러 학교에 갔다.사실… 졸업한 몸이니 청강이라고 하기엔 좀 그렇다. ㅋㅋ 그런데 Springer책들은 왤케 쉽게들 나오는지… 텍스트북이 Web Data Mining  인데 […]

계속 읽기

수석 졸업자로 뽑혔습니다. ^^ /

참 요즘 결혼에다 졸업에다 개인적으로 많이 바쁜 생활을 하고 있다.또한 칼럼도 쓰느라 오늘 새벽 4시 가까이 되서 침대에 누운기억이 난다. 내가 잘 아는 내용에 대해서 칼럼을 쓰면서도 많이 배우고 있다. 그 쓰는 경험도 물론이거니와 이전에 내가 공부했던 부분의 약점에 대해서 그리고 정확하게 알지 못한 부분에 대해서 고민하고 책을 뒤적이는 시간이 꽤 걸렸다.  물론 그 덕분에 […]

계속 읽기

휴가…

마이너스를 면하지 못하는 휴가를 올해는 좀 아껴 쓸라고 했는데…. 오늘 어쩔수 없이 휴가를 썼다. 그것도 예상치 못한 것 때문에 말이다.이런건 아무리 다이어리에 계획을 세우고 난리를 쳐도 이렇게 될 수 밖에 없는 상황이더라. 논문 제본을 했던것에서 교수님께 도장 받은 페이지가 원본이여야 한다고 해서 그 사본 페이지를 원본 페이지로 뜯어 고치려고 아침에만 학교를 두번이나 왔다 갔다 했다. […]

계속 읽기

마지막(?) 장학금

기다리고 기다리던 장학금 소식이다. 이로서 장학금을 4학기 풀로 받았다. 이렇게 4학기 내내 장학금을 주신 교수님께 먼저 감사드린다. 이번학기 성적에 대한 장학금은 아니고 저번학기 성적에 대한 장학금인데, 이제야 결과가 나왔다. 저번학기때 이직문제, 논문이라든지 빡신 수업때문에 많이 힘들었던 학기였는데 다행히 성적도 잘 나오고 이렇게 장학금도 받게 되었다. 이게 내가 내 인생에서 탈 수 있는 마지막 장학금이 될지 […]

계속 읽기

논문에도 스토리가 필요하다.

어제 교수님이 조금 일찍 와서 논문 이야기좀 하자고 해서 좀 일찍 학교를 찾았다.사실 어제 졸업생 환송회가 있었다. 그래서 교수님도 어짜피 만나뵈어야 하고 해서 퇴근하지 마자 학교로 달렸다. 뭐 논문 실험과 결과에 대해서 특별하게 꼬집어 주시는 부분은 없었다. 사실 논문 실험 결과가 예상대로 나와줘서 아마 그 부분에 대해서 지적받았으면 좌절하고 말았을 것이다. 교수님의 말씀의 요지는 이랬다. […]

계속 읽기

Break Through하다.

어제 작업에 획기적인 변화가 있어 논문 실험이 95% 끝나버렸다. ^^ 이전에 내가 잘못한것은 문서 길이에 대해서 노말라이즈 하는것을 빼먹었다는 것과 중요 주제어를 추출하는것을 간과 했다는 것이였다. 그렇게 새로운 프로세싱 과정을 추가하고 새로운 식을 만들어서 적용해다. 논문 제출 기간은 다가오고 결과가 잘 나오지 않으면 어쩌나 하구 노심초사 하면서 작업을 했는데 정말 다행히도 실험 결과와 과정에 만족한다. […]

계속 읽기

Language model을 이용한 blog spam 제거 논문

2달전쯤에 내 생각과 같음에 깜짝 놀라버리고 좌절가까이 하게 했던 논문을 소개해본다. Blocking Blog Spam with Language Model Disagreement, G. Mishne, D. Carmel, and R. Lempel. In: AIRWeb ’05 – First International Workshop on Adversarial Information Retrieval on the Web, at the 14th International World Wide Web Conference (WWW2005), 2005. 위의 논문인데 2005년에 저런 생각을 먼저 […]

계속 읽기

논문 실험에 실패하고….

2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 […]

계속 읽기

프로그램의 완성도가 아닌 실험 자체가 목적이 되어야 하는데.

Ham: 3만건 Spam : 2만건 Test set : 2천건 Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다. 평균적으로 Spam 코멘트가 길이가 짧더라. 이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다. Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, […]

계속 읽기

영어 Blog comment 구합니다.(2)

블로그 comment 및 tracback 스팸 2만여건을 구했다. 왜 진작에 이런 생각을 못했는지.. ㅜㅜ 바로 EAS(Eolin Anti SpamServer)라는 플러그인을 살짝 바꿔서 스팸인 comment들을 파일로 저장하게끔 만들었고, 또한 코드를 확인해서 DB 쓰레기통에 있던 spam 처리된 comment 와 trackback을 찾아내서 백업했다. EAS 내부적으로 잠깐 소스를 보자면 1. 10개정도의 중복 comment가 달릴경우 blocking한다. (이것은 내부 DB를 이용한다.)2. 1번에서 필터링 […]

계속 읽기