검색 기술 컨퍼런스에 다녀오다.

예상외로 상당히 흥미로운 이야기들이 많이 나왔었다.

게다가 예상외로 사람들이 많이 왔고 여기저기서 반가운 얼굴들을 많이 뵈올 수 있었다.

사실 세번째 트랙의 첫번째 강연인 "정보 추출 기술 동향과 추출 기법을 적용한 정보검색 효율향상" 강연이였다. 한양대 교수님이 Wrapper Learning 방법에 대한 소개와 그것을 응용한 구현을 설명해 주셨다. 책으로 공부할때는 막연하게 보이는 점이 없지않아 있었는데 직접 구현하신 부분을 보니 새롭게 다가왔다.

사실 이 강연은 개인적으로도 많은 관심을 가진 토픽이였다. 예를들어 중앙일보,조선일보 사이트에서 광고영역과 네비게이셔널 영역을 제외한 부분 그러니까 본문에 대한 크롤 및 인덱싱을 하고자 했던 작년 생각이 났다. 몇몇 서베이를 해보면서 Wrapper Learning 방법을 공부하고 고민을 해보다가 교수님이 MS라이브러리로 해결하신 HTML에서 비주얼한 영역을 나누는 문제에서 좌절했던 경험이 있었다. (수작업으로 룰 셋팅하는 원시적인 방법보다는 진보된….)

HTML에서 네이베이셔널 영역과 본문에 대한 후보군을 선택하기 위해서는 위 작업이 반드시 필요한데 과연 이걸 몇개로 나눠야 하는지 결정하는것 조차 HTML본문에서 힌트를 찾기가 힘들었다.

이 부분은 계속 고민해 보도록 하고, 역시나 구현 노하우에 대한 설명을 들어보니 새롭게 이 문제를 고민하던 때가 생각나서 기분이 좋았다.

이것 말고는 사람들 만나고 이리저리 돌아다니느라 듣지를 못했다.

개인적인 느낌으로는 컨퍼런스가 생각보다 괜찮았다는 것과 이런 컨퍼런스가 자주 열리면 좋겠다는 생각을 해봤다.

이 글 공유하기:

이것이 좋아요:

Related Post