문서집합에서 문서 상호 빈도수가 높은 feature 셋을 뽑아내는 알고리즘
요즘 Text Mining Handbook을 보고 있는데, 예전에 보지 못한 알고리즘이 나와서 한번 적어본다. 처음 보는 알고리즘인데, 이미 나온지 꽤 된 많은곳에 쓰이는 알고리즘 이란다. ^^; 특정 카테고리의 문서집합에서 빈도수가 높은 컨셉을 뽑아내는 알고리즘으로 support와 Confidence라는 개념으로 이루어져 있다. support는 주어진 룰을 포함하는 문서의 빈도수를 의미하고, confidence는 그 룰이 참이라고 생각할 수 있는 휴리스틱한 threshold를 의미한다. […]
계속 읽기