같은 의미의 영어와 한글을 어떻게 한 색인항목에 넣을 수 있을까?

교수님이 주신 “Concept Unification of Terms in Different Languages for IR“이라는 논문을 분석해서 논문 세미나를 했다. 이 논문의 내용은 무엇이냐 하면….ㅎㅎ “디지털”이라는 쿼리를 넣었을때 “Digital”, “디지털”, “디지틀” 이라는 단어가 포함되는 문서 모두가 나오게 하려면 어떻게 할 것인가? 라는것이다. 물론 외래어 뿐만 아니라 세계무역기구(WTO), 서울대(Seoul National University) 등의 약어나 복합어에 대한 Unification까지 생각하면 어떻게 알고리즘을 구현해야 […]

계속 읽기

논문 세미나 자료

“벡터 스페이스 모델을 위한 문서 정규화”라는 제목으로 논문 주제 선정 세미나를 했는데 이건 박사논문정도의 연구기간이 필요한 거라며 교수님에게 리젝트 당한 주제다. 루씬을 분석하다 문서길이 노말라이제이션에 문제가 있음을 제시한 article을 보고 힌트를 얻어서 나름 주제선정을 하고 발표를 했었는데. 쩝 ㅜㅜ 내일 논문 세미나 준비를 하다가 생각이 나서 올린다. XClpn9FazD.pdf

계속 읽기

확률모델

패턴인식과 기계학습 공부한 덕을 톡톡히 보는구나. 오늘 정보검색론 책도 없고 그래서 인터넷으로 ‘확률모델’문서를 보고 있는데, 이거 왠걸… 확률모델 별거 아니더라. 전에 베이지언(Bayesian) 룰을 공부하면서 관심이 있었던, 스팸처리 알고리즘과 거의 흡사했다. 하긴 생각해보니 스팸이 아닌 글과 스팸인 글을 분류하는거 자체가 쿼리에 맞는 문서집합과 퀘리에 맞지않는 문서집합을 분류하는거와 마찬가지더라는… 게다가 색인어 각각이 서로의 색인어의 존재에 별 영향을 […]

계속 읽기

백터공간모델

논문에 대한 주제를 교수님과 이야기 도중에 바꾸었다. 솔직히 웹 2.0에 대한 개인적인 관심도 있고 웹 2.0이 나온다면 검색모델에 대한 가중치 부여 방법에 따른 feature가 바뀌어야 한다는 생각이 있었기 때문에 “웹 2.0 랭킹모델”에 대한 연구를 논문 토픽으로 잡아 봤다. 먼저 가장 많이 쓰이고 가장 쉽게 접근할수 있는 백터공간모델(vector space model)에 대한 정리작업을 해본다. 참고한 도서는 Modern […]

계속 읽기

논문 분석 2 – 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정

논문을 읽기는 했는데 별다른 감흥이 없어서 접어두고 있던 논문 분석을 해본다. 분석 논문 : 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정 (부산대학교) 저자 : 이도관 위와 같은 논문이고 미등록어 추정부분에 대한 부분은 아주 조금 나와있어서 그렇게 많은 도움은 되지 않았지만 몇몇 중요한 사항을 정리해 보고자 한다. 무엇보다 이 논문은 형태론적 중의성해소를 중점으로 두고 […]

계속 읽기

논문 분석 1 – 한국어 정보검색을 위한 색인어 추출 방법에 대한 연구

주말이긴 하고 집에서 그냥 시간 보네기 뭐해서 논문을 분석하려 학교에 와 이렇게 정리해본다. 논문을 쓰기 위해서는 기존의 논문을 분석하는 방법이 가장 좋다는건 이미 알고 있었고, 이미 읽었던 논문이라도 이렇게 정리를 해보는게 나중을 위해서 좋은 방법이라고 생각해 정리해본다. 분석 논문 : 한국어 정보검색을 위한 색인어 추출방법에 관한 연구 (고려대학교) 저자 : 최순우 이 논문은 형태소 분석을 […]

계속 읽기

논문준비

어제 수업시간에 수업대신 임해창 교수님과 논문주제에 대해서 이야기를 나누었다. 그러면서 수업시간에 꺼네놓지도 않은 노트북을 꺼내서 교수님이 이야기하신것과 내가 생각한것을 정리해 봤다. 일단 주제는 사전미등록어에 대한 색인어 추출방법론으로 방향을 잡았고 처리 대상은 신조어라든지 인명등으로 잡고 있고 기회가 된다면 전에 이야기한 개체명 인식까지도 다뤄볼 생각이다. 교수님이 아주 좋은 지적을 해주셨다. 검색질을 향상시키고자 하는 목적인가? 아니면 형태소 분석이 […]

계속 읽기