휴리스틱, 매직넘버

개인적으로 휴리스틱(heuristic) 방법이라는 말을 무지 싫어한다.
하지만 오늘(정확히는 어제) 수업시간에 수도없이 들은 말이 휴리스틱이였다.

사람이 생각하는 대로 그 방법론을 적용해서 어떤 문제의 목표를 달성하는건데, 생각해보면 휴리스틱이라는 말은 참 무책임하다는 생각까지 든다.

게다가 이 말과 더불어 매직넘버(magic number)를 넣어 어쩌구 저쩌구 하는것을 논문같은곳에서 꽤 많이 볼수 있는데 이것도 참 애매한 단어다.

오늘 인공지능 수업 쉬는시간에 교수님한테 고민고민 하다가 복합명사 분해에 대해서 질문을 했다. 고려대 형태소 분석기는 복합명사를 어떻게 분해하는지?

거창한 말씀은 전혀 안하신다. 확률을 기반으로 휴리스틱 방법을 쓰면 된다는것이였다. 솔직히 형태소 분석기가 성능이 꽤 좋아 뭔가 다른 방법을 쓴거 아닌가 했는데 아니였다.

내가 너무 복합명사 분해에 대해서 겁을 먹은게 아닌가 한다.
아니면 욕심이 많아서 그런걸지도 …..

한걸음 한걸음씩 해나가다 보면 언젠가 끝이 보이는 것이거늘..

Divide & Conqure 명심하자!

내일은 한번 Conqure 해봐야 겠다.

0 0 votes
Article Rating
Subscribe
Notify of
guest

4 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Ernie

잘 아시겠지만 한국어처리 하는 사람들의 고민 중 하나가 복합문사 분해죠 (특히 검색쪽에 적용할 때 더 중요한 것 같아요). 몇일 전에 제가 지금 일하고 있는 회사의 형태소 분석기 소스를 볼 일이 있었는데, 여기 역시 복합명사 분해는 통계에 기반한 휴리스틱 비슷한 걸 쓰더라요. 사전에 복합명사로 쓰일 수 있는 명사들을 따로 표시해두더군요. 복합명사로 쓰일 수 있는 명사들은 통계적으로 추출하는 것 같고요. 이 외에도 과분석을 막기 위한 휴리스틱을 쓰는 것 같고, 고빈도 복합명사는 기분석 사전을 써서 정확하게 분석하는 듯.

고감자

좋은말씀 정말 감사드립니다.
그렇지 않아도 오늘 하루종일 복합명사 분해 로직을 코딩했네요. 약간의 과분석이 되는 면이 없지는 않지만 그래도 정확한 텀은 추출이 되는듯 싶습니다.
좀 정리해서 한번 복합명사 부분을 포스팅해보는것도 좋을거 같습니다.
감사합니다. ^^

powerbox

저희 회사에서 고려대 형태소분석기 씁니다.
근데 속도가 좀 느리다는 단점이 있습니다…
(확률기반이다 보니 확률Data를 자주 Access하기 때문이죠)
그리고 띄어쓰기 대응이 안되어 있습니다.
하지만 품질은 정말 만족할만 합니다.

고감자

좋은 정보 감사드립니다.