Query Reformulation(쿼리 재구성)에 대한 이야기

얼마전 야후 리서치 랩에서 논문 몇 편을 발표 했는데, 그 중에서 재미있는 논문에 대한 이야기를 하고자 한다. “From ‘dango’ to ‘japanese cakes’: Query Reformulation Models and Patterns” 쿼리를 마이닝 한다. 이 이야기는 대부분의 경우 클릭 기반의 정보를 이용함을 의미한다. 하지만 위와 같은 주제의 논문은 사용자 세션을 기준으로 사용자의 쿼리 의도를 파악하는 마이닝 작업이다. 위 논문에서는 […]

계속 읽기

검색어 오타에 대한 흥미롭고 재미있는 사실들

ydnkr에 기고한 블로그 글이 오늘 올라 왔다. 작성한지는 꽤 되었으나 스케줄상 오늘 올라오게 되었다. 검색어 오타에 대한 흥미롭고 재미있는 사실들 역시 이것도 과연 그럴것인가? 하는 의문 때문에 하게 된 작업이였다. 물론 사용자 데이터 분석을 통해 사실을 알게 되었으며 이를 알고리즘화 하여 플랫폼에 넣었고 아시아 및 미국 개발자 분들이 삼삼한 개념이라는 말씀까지 들었던 내용의 일부분이다. ydn에 […]

계속 읽기

단순한 데이터 하나 뽑는것도 고민을 하자!

랜덤 쿼리 1000개만 뽑아주세요. 요즘 집중하고 있는 일이 몇개 있어서 매우 바쁜데 위와 같은 요청이 들어와서 단순하게 쿼리 각각을 늘어놓고 n번째 쿼리를 뽑아 주면 되겠다 하고 생각을 했었다. 하지만 점심 시간에 밥먹으면서 고민했는데, 우리가 랜덤 샘플링을 하는 이유가 무엇인지 생각을 해봤다. 그것은 바로 모집단의 특징을 알아보기 위해서 샘플링을 하는 것인데, 샘플링은 반드시 모집단의 특징을 띄고 […]

계속 읽기

compression ratio 측정 해프닝

2003년인가 누군가가 spam filter에서 compression ratio가 중요한 펙터로 작용한다는 글을 쓴적이 있었다. 이는 스팸문서의 경우 단순한 패턴의 연속표현일 경우가 있다는 가정이 깔려 있다. 그런 문자열의 반복성은 압축 알고리즘의 구현 원리에 따라서 압축률을 측정함으로 간접적으로 측정이 가능할 것이다. 물론 지금 이 feature를 spam 필터링에 쓴다는 이야기는 절대 아니고 다른 작업을 하고 있는데 이 compression ratio가 중요한 […]

계속 읽기