Deep Crawl

웹 크롤로 검색일을 시작 해서 그런지 웹 크롤의 여러 이슈에 대해서 지금도 많은 관심이 있다. 그러다 구글에서 연구하고 실제 적용한 Deep Crawl알고리즘을 틈틈히 지하철에서 살펴볼 기회가 있었다. 구글이 이야기하는 Deep Crawl은, Form 태크의 실행(submission)으로 생성되는 get방식의  URL을 어떻게 하면 정보가 많게끔 자동으로 생성해 내느냐를 고민한 결과였다. 실제 아래와 같은 폼들을 이용해 검색 하는 방식이 주된 […]

계속 읽기

Crawler에 대한 추가 생각들

주말에 blog comment를 구하기 위해 오랫동안 썩혀 두었던 웹 크롤러를 꺼내들고 오랜만에 돌려 봤다. 테크노라티 분야별  top 블로거의 양질의 comment 1만건을 뽑아 왔다.  데이터를 뽑아서 좀 보니 색다른 아이디어도 생각나더라. 내 크롤러는 대용량이나 웹검색을 위해서 만든건 아니고, 100만건 이하의 웹을 크롤링 하는데 적합한 크롤러다. 노트북에 크롤러를 돌려보면서 크롤러를 대용량 검색을 위해서 바꾼다면 어떻게 해볼까 생각을 […]

계속 읽기