항상 뭔가 대학에서 실험을 하든지간에 가장 힘든 부분이 학습데이터 수집하고 분류하는 작업일거란 생각이 든다. 그래서 산학 연계측면에서 기업에서 학습 코퍼스를 제공하는 경우가 있는데 그런식으로 제공이 된 학습 코퍼스가 아닐까 한다.
내가 알기로는 위의 데이터가 야후 리서치랩에서 공개가 된것으로 알고있는데 상세한 것은 잘 모르겠다. ^^;
아마도 웹 스팸에 대해서 연구하는 분들에게는 정말 필요한 자료가 아닐까 한다.
이것 말고
스팸 블로그 데이터셋도 UMBC에서 제공을 하고 있지만 링크가 더이상 작동하지 않는다. 이 데이터가 실제 필요한데 말이다. (논문 저자에게 보내달라고 했으니 줄거라 믿고 있다. ㅋ )
post하고 comment 학습 데이터 셋도 필요한데, 이거 고민이다. 직접 또 크롤링 해야하는건가?
학습 코퍼스 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.