논문을 쓴는데 trining set을 구하는게 제일 힘든 문제인거 같다. 심지어 이런 문제가 주제를 판가름 하는 factor로 작용할 수도 있다니.. 쩝. 안타까운 현실이군.
1. 일단 구하지 못한다면, crawler를 써서 크롤링 하는 방법을 생각할 수 있겠다.
2. spam 판정을 하기위해 알바라도 써야될거 같다.
그리고 blog comment를 살 수 있는 사이트도 있는거 같은데, 돈 조금 주고 사버릴까도 하네.
근데 사는건 일단 모두 spam comment 아닌가? 필요한건 spam comment만은 아닌데 말이다.
ps. 영어 형태소 분석기 학술적으로 쓰이는 목적으로 공개된 버전을 아시는 분은 좀 정보 공유 부탁드립니다. ^^:
영어 Blog comment 구합니다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.