19회 한글 및 한국어 정보처리 학술대회에서 생각해본것들..

1. 내가 제안한 동시출현 주제어들에 적절한 coefficient를 주기 위한 학습을 또 다시 시행할 수 있을것이다. 그러니까 베이지언 룰에서 휴리스틱한 값으로 넣었던 값을 구하기 위한 학습 과정이 추가될 수 있겠다. (이런 방법을 설명한 논문이 있다고 한다.)

2. 뉴스(블로그)에서 본문을 크롤링 하기 위한 방법
웹페이지는 본문 이외에 상당히 많은 가비지(?)가 포함되어 있는데 이것들을 크롤링 타임에 제한할 수 있는 방법에 대한 아이디어를 생각해 봤다.
간단하게 HTML 레벨에서 본문 특정의 feature를 도출해 feature에 대한 학습을 시킨 후 실제 크롤링 타임때 classifier에 넣어서 본문과 제목등에 대한 판단을 하는 방법이다.

물론 크롤링 대상체에 대한 학습 시간이 필요할거 같지만 생각외로 적은 학습시간이 걸릴 수도 있을거란 생각이 든다. (대부분의 대규모 사이트는 템플릿을 이용한다는 가정을 한다면…)