논문 제출!

교수님이 아시면 천인공노할 사건이지만 일단 작업했던거 방금 제출했다.^^; 솔직히 제출을 처음 해보는것이라서 시험삼아 제출해봤다는게 정답일거 같다.뭐 오늘 제출본에서 완성본이 내용상 크게 다르지 않을것이라는 생각을 하고 있었으니까… 내일정도 교수님의 comment가 있을거고  나머지 작업하고 마무리 지어야 겠다. (올린 다음에도 당연히 수정 가능하다.) 19회 한글 및 한국어 정보처리 학술대회의 정보검색 카테고리에 제출했는데 나의 제출 번호가 28번이니 28번째 정도 […]

계속 읽기

Break Through하다.

어제 작업에 획기적인 변화가 있어 논문 실험이 95% 끝나버렸다. ^^ 이전에 내가 잘못한것은 문서 길이에 대해서 노말라이즈 하는것을 빼먹었다는 것과 중요 주제어를 추출하는것을 간과 했다는 것이였다. 그렇게 새로운 프로세싱 과정을 추가하고 새로운 식을 만들어서 적용해다. 논문 제출 기간은 다가오고 결과가 잘 나오지 않으면 어쩌나 하구 노심초사 하면서 작업을 했는데 정말 다행히도 실험 결과와 과정에 만족한다. […]

계속 읽기

논문 실험에 실패하고….

2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 […]

계속 읽기

프로그램의 완성도가 아닌 실험 자체가 목적이 되어야 하는데.

Ham: 3만건 Spam : 2만건 Test set : 2천건 Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다. 평균적으로 Spam 코멘트가 길이가 짧더라. 이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다. Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, […]

계속 읽기

논문 세미나 자료

“벡터 스페이스 모델을 위한 문서 정규화”라는 제목으로 논문 주제 선정 세미나를 했는데 이건 박사논문정도의 연구기간이 필요한 거라며 교수님에게 리젝트 당한 주제다. 루씬을 분석하다 문서길이 노말라이제이션에 문제가 있음을 제시한 article을 보고 힌트를 얻어서 나름 주제선정을 하고 발표를 했었는데. 쩝 ㅜㅜ 내일 논문 세미나 준비를 하다가 생각이 나서 올린다. XClpn9FazD.pdf

계속 읽기

확률모델

패턴인식과 기계학습 공부한 덕을 톡톡히 보는구나. 오늘 정보검색론 책도 없고 그래서 인터넷으로 ‘확률모델’문서를 보고 있는데, 이거 왠걸… 확률모델 별거 아니더라. 전에 베이지언(Bayesian) 룰을 공부하면서 관심이 있었던, 스팸처리 알고리즘과 거의 흡사했다. 하긴 생각해보니 스팸이 아닌 글과 스팸인 글을 분류하는거 자체가 쿼리에 맞는 문서집합과 퀘리에 맞지않는 문서집합을 분류하는거와 마찬가지더라는… 게다가 색인어 각각이 서로의 색인어의 존재에 별 영향을 […]

계속 읽기

논문 분석 2 – 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정

논문을 읽기는 했는데 별다른 감흥이 없어서 접어두고 있던 논문 분석을 해본다. 분석 논문 : 한국어 문법 검사기를 위한 형태론적 중의성 제거와 미등록어 추정 (부산대학교) 저자 : 이도관 위와 같은 논문이고 미등록어 추정부분에 대한 부분은 아주 조금 나와있어서 그렇게 많은 도움은 되지 않았지만 몇몇 중요한 사항을 정리해 보고자 한다. 무엇보다 이 논문은 형태론적 중의성해소를 중점으로 두고 […]

계속 읽기

논문 분석 1 – 한국어 정보검색을 위한 색인어 추출 방법에 대한 연구

주말이긴 하고 집에서 그냥 시간 보네기 뭐해서 논문을 분석하려 학교에 와 이렇게 정리해본다. 논문을 쓰기 위해서는 기존의 논문을 분석하는 방법이 가장 좋다는건 이미 알고 있었고, 이미 읽었던 논문이라도 이렇게 정리를 해보는게 나중을 위해서 좋은 방법이라고 생각해 정리해본다. 분석 논문 : 한국어 정보검색을 위한 색인어 추출방법에 관한 연구 (고려대학교) 저자 : 최순우 이 논문은 형태소 분석을 […]

계속 읽기

논문준비

어제 수업시간에 수업대신 임해창 교수님과 논문주제에 대해서 이야기를 나누었다. 그러면서 수업시간에 꺼네놓지도 않은 노트북을 꺼내서 교수님이 이야기하신것과 내가 생각한것을 정리해 봤다. 일단 주제는 사전미등록어에 대한 색인어 추출방법론으로 방향을 잡았고 처리 대상은 신조어라든지 인명등으로 잡고 있고 기회가 된다면 전에 이야기한 개체명 인식까지도 다뤄볼 생각이다. 교수님이 아주 좋은 지적을 해주셨다. 검색질을 향상시키고자 하는 목적인가? 아니면 형태소 분석이 […]

계속 읽기