웹로봇(Web Crawler) 개발전에 고민해야 할 사항.

출처 : 검색엔진 개발자 그룹 웹 로봇(Web Crawler)개발을 앞두고 이래저래 준비하고 있는게 많은데 개발자 그룹 어떤 고수분이 올린글을 인용해 본다. 1. 웹로봇은 http 프로토콜규약에 의해 이루어지는 것이므로 쉽다는 생각은 금물. 2. HTML 태그 구조에 자신있는가? 웹프로그램을 해본적이 없이 어플리케이션 입장에서 접근한다면 반드시 실패. 3. 개발해서 어디다 써먹을것인가? 그냥 한번 만들어보고 싶다는 생각에서 테스트한다면 상관없으나 웹로봇으로 […]

계속 읽기

나의 질문 ..그리고 답변…

이런 질문에…. 기존에 C로 되어 있는 Web Crawler를 Python으로 만들려고 합니다. 이유는 기존의 프로그램의 유지보수 어려움및 플랫폼 독립적이지 못한 부분때문에 그렇습니다. (어짜피 리눅스 버젼도 만들어야 된다구 해서요..) 아직 파이썬으로 다시 만들어 본다고 건의는 하지 않은 상황인데 내일 정도 할려고 합니다. 윗분들에게 파이썬의 장점을 어떻게 이야기 하면 수긍을 하실까요? 물론 Google의 웹 로봇도 파이썬으로 만들어 졌다는 […]

계속 읽기

검색엔진관련사이트

출처 : http://blog.naver.com/nutch.do 국내 검색사이트 네이버 엠파스 야후 구글 스카우터 서치코리아 지우(오픈 디렉트리 검색엔진) 자갸(PHP 색인어 추출기) FindBlog(블로그검색엔진) 다음카페 검색엔진 개발자 그룹 데모엔진                                         2005년2월4일추가   검색솔루션업체   다음소프트 자연어처리(NLP)기술을 바탕으로 한 검색솔루션 토크로(Talkro)IR를 통해 시장공략을 강화한다 이제품은 키워드와 자연어검색은 물론 사용자 의도까지도 파악한 결과를 내놓은 솔루션이다 다이퀘스트 통합검색엔진 ‘다이버’는 쇼핑몰 전문 솔루션인다. 일반 검색엔진은 ‘냉장고’라는 검색어로 […]

계속 읽기

월요일부터 웹로봇을 맡게 되었다.

월요일부터 웹로봇을 맡게 되었다. 자바로 되어있는 코드 분석은 해봤는데 좀더 많은 정보가 필요해서 집에서 여러 정보를 찾아보면서 생각해 봤다. 자바로 되어있던것하고 현재 C로 만든 웹로봇과 비교해서 Crawling 속도 비교를 한적이 있었는데 자바 속도가 좀 빨랐던 기억이 난다. 역시나 언어 논쟁은 쓸데 없는짓이라는걸 이때 알았다. C보다 40배 정도 느리다는 JAVA인데… 정작 어플리케이션에서는 그리 차이나 나질 않고 […]

계속 읽기