한글 및 한국어 정보처리 학술 대회 논문 발표 후기

일단 구술발표로 정해졌다가 우여곡절끝네 포스터 발표로 되어서 상당히 마음의 부담을 가지지 않고 발표장에 갔지만 수많은 질문에 50분가량의 시간이 어떻게 지나갔는지 모르겠다.

솔직히 학술제에 가본적도 처음이고 포스터 발표 하는것을 관람하는 것이나 발표하는것이나 처음해보는 것이라서 생각지도 못한 난관들이 있었다. 하지만 나름 남는것들이 많은 발표였다. 이때 발표에서 부족한 부분들은 나중에 다음 발표때 중요한 밑거름이 되리라 생각한다.

주제가 독특하고 접근하기 편한 주제라서 그런지 모르겠지만 정신없이 질문받고 답변해주면서 주변을 둘러보지 못했는데 세션이 끝나고 나서 상당히 많은 사람들이 포스터 주변에 있었다는 이야기만 들을 수 있었다.

일단 지도교수님의 지도 말씀은 Rule Base 방법과 Training Base 방법을 조합해서 좀더 연구해보고 Error Rate에 대한 집중적인 조사와 그것을 개선할 수 있는 방법을 모색하는걸 추후 연구주제로 하면 어떻겠는지 말씀해 주셨다.

그리고 Supervised Learning 방법인 내 방법과 Language model 방법(unsupervised)의 논문 결과를 좀더 비교해 볼 수 있었으면 좋겠다는 건의가 나왔었다. 사실 처음 의도는 두가지를 비교 하는것이였는데 supervised learning 방법끼리의 비교가 더 확실한 성능 개선의 결과를 가져오지 않을까 해서 그렇게 실험을 한정했었다. 사실 요청하신 방법론상에서 정확도 측면만 눈으로 확인했던게 사실이여서 다른 측정 방법에 대해서 결과적으로 어떤 차이가 있었는지 확인해 보는것도 좋은 경험이 되리라 생각한다. (조언해주신 고대 언어처리 연구실 분에게 감사드린다.)

이번 논문에서 내가 만든 확률식이 있었는데 그것에 대해서 충분한 설명을 드리지 못해서 상당히 아쉽다. 끝나고 나서 실험 프로그램을 뒤적이며 실험 결과로 나온 것들이 내가 구현한 식을 통해서 나온것인지 확인하고 난리 법석을 떨었는데 논문에 나온 수식이 실험에 사용한 수식인것을 확인 했다. 충분한 설명 드리지 못해서 죄송하다고 말씀 드리고 싶다. 본 논문에서는 좀더 자세하게 설명하도록 하겠다.

발표 초반에 모회사에서 모바일 검색을 하시는 분들이 오셔서 이런저런 질문들을 하셨는데 모바일 검색에서 잘못된 검색 결과가 나오는것(별 정보가 아닌 것들이 올라올 경우.)에 대해서 여쭈어 보셨는데 내가 모바일 검색은 단 한번도 해본경험이 없어서 많은 말씀은 드리지 못했다. (스팸에 대한 발표인데 검색에 대한 질문을 하신다니….. ㅡㅡ; ) 지금 그곳의 랭킹이 어떻게 되어 있는지 몰라서 별 말씀은 드리지 못했다. 하지만 왜 그런지 기회가 되면 고민해보는것도 좋은 경험이 될거 같기는 하다.

검색 결과를 눌러 들어가면 가비지일 경우가 많다는데 사실 모바일 검색의 경우 일반 PC를 통한 검색보다 검색어가 짧아서 원하는 문서를 더욱 찾기 힘들거라 생각한다. 게다가 내가 예상하기에는 공급받은 문서셋의 퀄리티 판단이 제대로 되지 않아서 그럴거라고도 생각한다. 예를 들어 구글에서는 PageRank같은 알고리즘으로 문서 자체의 퀄리티를 판단하고 있는데, 이러한 문서내 feature를 발견해서 검색 전에 Static Rank의 점수로 활용하고는 있는지 알고 싶다. (어제 논문 세션에는 문서 자체를 통한 퀄리티 판단과 그 이외 자질을 통한 판단 방법이 있다고 한다. PageRank는 후자가 되겠다. )

이런 문제가 아니라면 문서의 score function에서 LengthNorm에 대한 계산이 어떻게 되는지 확인하는것도 좋을듯 한데, 문서의 길이가 짧을 경우 해당 term의 score가 엄청나게 높아질 가능성이 있는 함수를 쓸 경우 이상한 문서가 위로 올라올 가능성이 많다. 게다가 이런 경향은 쿼리 텀이 적을때 문제가 더 클거 같다.(모바일 검색이 가능성이 많겠군.)
문서의 길이가 길수록 문서 퀄리티가 높을 가능성이 많다는 연구 결과에 대한 이야기가 어제 논문 세션에 있었는데 그런 논문을 인용하자면 긴 문서를 위로 올려주는게 필요하다. 그러나 이럴경우 다양한 단어를 포함하는 긴 문서가 매번 위로 올라가기 때문에 모든 긴 문서에 대해서 스코어를 높여주기 보다는 어떠한 복합적인 기준을 가지고 올려주는 방법을 사용해야 할거 같다.(어렵구나… ㅡㅡ;)

경북대 대학원생 분께서 논문에 대한 여러 조언을 주셨는데.
베이지언의 방법의 parameter를 학습기반으로 결정하는 논문들이 있으니 참고해보는것도 좋을거라고 했고, co vector machine같은게 있다는데 이것도 확인해보라 했다.
역시나 박사과정분들은 견해가 남다르다는걸 매번 느낀다.

이런 학술제 논문 발표 및 연구에 대한 제안사항이 있다.

1. 논문을 발표 이전에 미리 공개한다.

이번 포스터 발표때 느낀거지만 미리 논문을 봤던 분들과 아닌 분들의 질문의 퀄리티가 달랐다. 물론 이전에 공개할 경우 학술제 참여율이 저조할 수 있겠다는 단점이 있겠지만 발표자들의 좀더 나은 추후 연구를 위해서 미리 공개하는것도 좋을거 같다는 생각이 든다.

2. 산학 연계를 통해 각종 학술 연구에 기업들의 데이터가 쓰일 수 있었으면 좋겠다.

나도 그랬지만 논문쓰는데 가장 중요하고 시간이 많이 소요되고 힘든 부분이 바로 실험 데이터를 수집하는것이었다. 몇몇 만났던 학생 분들은 아이디어는 있는데 테스트할 데이터가 없다는 말씀을 많이 하셨다. 포털의 여러 데이터를 학술 연구에 쓰고, 그 학술 연구의 결과를 기업들이 쓰는 그런 바람직한 산학 연계가 되면 더 좋은 논문과 서비스들이 많이 나오지 않을까 한다.

3. 우리도 논문을 쓰자구요.

논문이 기업의 기술 유출의 창구가 될지 모른다고 말씀들 하시겠지만, 실제 이론과 구현사이에는 생각보다 많은 격차가 있다고 생각한다. 그 격차를 줄이는 기업이 기술 기업이라고 불리우는데, 예를 들어 야후나 구글같은 회사가 있겠다.
PageRank는 누구나 이떤 원리인지 알고 있고 수식까지 공개되어 있지만 엄청나게 큰 메트릭스를 효율적으로 계산이 가능하게 하는 방법과 여러 실무 커스터마이징 factor가 정말 큰 노하우이다. 이게 바로 실무와 이론간의 차이다.
기업의 논문 공개가 회사의 네이밍 벨류를 높이고 기술적 수준을 자랑하는 도구로 사용될 수 있는 여지는 이곳에 있다고 생각한다. 회사 이름으로 직접 논문을 제출하고 학계의 여러 feedback을 받는 과정이 있다면 아마도 많은 우수한 인재들이 회사에 입사하려 하는 그런 계기가 되지 않을까 한다. 고작 몇몇 팁을 제공한다고 그것을 배껴서 타 회사들이 따라잡지는 못한다.
아마도 내 논문도 사내에서 좀더 여론과 관심을 형성해서 좀더 발전시킨다면,직접 서비스에 적용해 성과 보고를 논문을 통해 함으로서 이런 분위기와 효과를 얻을 수 있지 않을까 한다.

상당히 유익한 발표, 실수도 많이하고, 설명도 잘 못한점도 있었지만 다음에 더 잘 할수 있을거라 믿는다. ^^

ps. 정말 구두발표가 더 편해 보였다. 포스터는 정신도 없고 시간도 길고 질문도 많고.

ps. 고등학생이 논문 발표를 한것을 보고 놀랐다. ^^;

ps. 이번부터 기본 논문집이 CD로 나왔다. 논문 내용이 필요하신분은 아시는 분들에게 직접 받아 가시면 될 듯 하다. (야후! 코리아 분들중에 필요하신 분께서는 5명 정도는 제가 CD로 직접 구워드리겠습니다. 대신 대량 불법 복제는 사양하겠습니다. ^^;)

ps. 회사에서도 Tech Talk로 논문 발표를 하라는 … 팀장님 말씀.. ㅜㅜ

ps. 이번 학술대회때 나에 대해서 알게 모르게 좋은 점만 봐주시고 칭잔해 주시는 고마운 분들이 많다는걸 다시 한번 느낄 수 있었다. 이런분들의 관심 덕분에 열심히 할 수 밖에 없는거 같다.

from future import dream

당신의 나의 뜨거운 감자!

관련