from __future__ import dream text mining

문서집합에서 문서 상호 빈도수가 높은 feature 셋을 뽑아내는 알고리즘

작성일자 2007년 12월 05일 고감자님이 작성

요즘 Text Mining Handbook을 보고 있는데, 예전에 보지 못한 알고리즘이 나와서 한번 적어본다. 처음 보는 알고리즘인데, 이미 나온지 꽤 된 많은곳에 쓰이는 알고리즘 이란다. ^^; 특정 카테고리의 문서집합에서 빈도수가 높은 컨셉을 뽑아내는 알고리즘으로 support와 Confidence라는 개념으로 이루어져 있다. support는 주어진 룰을 포함하는 문서의 빈도수를 의미하고, confidence는 그 룰이 참이라고 생각할 수 있는 휴리스틱한 threshold를 의미한다. […]

계속 읽기