오늘 Crawler 커스터 마이징을 했다.(아주 오랜만이다…)
문제가 있었는데 그 문제라는게..
HTML 한페이지에서 나오는 Url과 Anchor Text를 저장을 하는데 개발하면서 한페이지에서 같은 Url이 다른 Text로 표현되어 나올것이라는 생각은 하지 못하였다. 그래서 계속 덮어 쓰기를 한거였다.
그래서 뉴스수집페이지에서 동일한 Url에 의미가 없는 짧은 Anchor Text가 저장이 된거였다.
(뒤에 나오는 Anchor Text가 의미없는 Text였다)
그래서 Anchor Text의 길이를 비교해서 기존의 것과 새로 추가되는 Anchor Text중에 긴것을 더 의미있음으로 가정하고 긴걸 저장하게 Crawler기능을 개선했다.
그런데 포탈 검색일경우에는 어떨까 하는 생각도 해봤다.
일반 게시판에서는 사람들을 끌어볼라고 “중국 일본침공 속보”이런 글자에 이상한 포르노 사이트를 링크 시켜놓을 경우도 있을것이다.
이럴때는 Crawler가 대략 난감해 질것이다.
요는 Anchor Text만 믿으면 안된다는거지..
그리고 사람의 눈에는 안보이게 바탕 흰색 글씨 희색으로 해서 이상한 낚시 Anchor를 추가할수도 있겠지..
위와 같은 문제는 정말 검색엔진이나 Crawler가 어떻게 동작하는지 잘 아는 사람만이 그렇게 할수 있겠지만 뭐 간단한 로직이니 수많은 Crawler는(내가 만든거 포함해서 ㅋㅋ) 저기에 속아 얼씨구나하고 크롤링 해서 인덱서에 넘겨주겠지.(수많은 Crawler는 자신이 낚시에 낚인줄도 모른다.^^; 그나마 다행이지..)
뭐 오래전(?)에 Daum 면접 봤을때 이야기 듣기로는 Daum Crawler는 그 페이지가 포르노 페이지인지 아닌지도 감지한다고 그러던데… 그거야 안에 나오는 텍스트를 분석한다든지 그래서 그렇게 되는거겠지…
이건 금칙어 사전만 있으면 가능하리라 본다. 그밖에 여러 규칙이 적용이 될수도 있겠지…
내가 포탈용 Crawler를 만든다면사 그렇게 만들겠지만 내 Crawler는 특정 사이트만 크라울링 하니 그럴 필요까지는 없을거 같다.
아무튼 오늘 내내 Anchor Text를 보면서 많은 생각을 했다.
사람들도 Anchor Text에 속아서 낚시글에 걸렸다고 한탄을 하는데 Crawler라야 어쩌겠나…ㅎㅎㅎ
Anchor Text에 대한 고찰 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.