HTML을 단정하게 해주는 프로그램(Tidy)
Python에 내장되어 있는 HTMLParser를 쓰다가 난관에 봉착했다. 완전한 HTML이 아니면 파싱에러가 속출하는거다…헉~~~ 내부 코드를 보니 정규식으로 “
계속 읽기당신의 나의 뜨거운 감자!
Python에 내장되어 있는 HTMLParser를 쓰다가 난관에 봉착했다. 완전한 HTML이 아니면 파싱에러가 속출하는거다…헉~~~ 내부 코드를 보니 정규식으로 “
계속 읽기W3C HTML 추천 스펙 http://www.w3.org/TR/html401/ 이거의 번역본은… http://trio.co.kr/webrefer/html/cover.html 웹로봇 규약을 지키기위한 사이트 또한 각종 웹로봇에 대한 정보가 나와있음 www.robotstxt.org 2005년 2월 21일 추가
계속 읽기출처 : 검색엔진 개발자 그룹 웹 로봇(Web Crawler)개발을 앞두고 이래저래 준비하고 있는게 많은데 개발자 그룹 어떤 고수분이 올린글을 인용해 본다. 1. 웹로봇은 http 프로토콜규약에 의해 이루어지는 것이므로 쉽다는 생각은 금물. 2. HTML 태그 구조에 자신있는가? 웹프로그램을 해본적이 없이 어플리케이션 입장에서 접근한다면 반드시 실패. 3. 개발해서 어디다 써먹을것인가? 그냥 한번 만들어보고 싶다는 생각에서 테스트한다면 상관없으나 웹로봇으로 […]
계속 읽기이런 질문에…. 기존에 C로 되어 있는 Web Crawler를 Python으로 만들려고 합니다. 이유는 기존의 프로그램의 유지보수 어려움및 플랫폼 독립적이지 못한 부분때문에 그렇습니다. (어짜피 리눅스 버젼도 만들어야 된다구 해서요..) 아직 파이썬으로 다시 만들어 본다고 건의는 하지 않은 상황인데 내일 정도 할려고 합니다. 윗분들에게 파이썬의 장점을 어떻게 이야기 하면 수긍을 하실까요? 물론 Google의 웹 로봇도 파이썬으로 만들어 졌다는 […]
계속 읽기출처 : http://blog.naver.com/nutch.do 국내 검색사이트 네이버 엠파스 야후 구글 스카우터 서치코리아 지우(오픈 디렉트리 검색엔진) 자갸(PHP 색인어 추출기) FindBlog(블로그검색엔진) 다음카페 검색엔진 개발자 그룹 데모엔진 2005년2월4일추가 검색솔루션업체 다음소프트 자연어처리(NLP)기술을 바탕으로 한 검색솔루션 토크로(Talkro)IR를 통해 시장공략을 강화한다 이제품은 키워드와 자연어검색은 물론 사용자 의도까지도 파악한 결과를 내놓은 솔루션이다 다이퀘스트 통합검색엔진 ‘다이버’는 쇼핑몰 전문 솔루션인다. 일반 검색엔진은 ‘냉장고’라는 검색어로 […]
계속 읽기월요일부터 웹로봇을 맡게 되었다. 자바로 되어있는 코드 분석은 해봤는데 좀더 많은 정보가 필요해서 집에서 여러 정보를 찾아보면서 생각해 봤다. 자바로 되어있던것하고 현재 C로 만든 웹로봇과 비교해서 Crawling 속도 비교를 한적이 있었는데 자바 속도가 좀 빨랐던 기억이 난다. 역시나 언어 논쟁은 쓸데 없는짓이라는걸 이때 알았다. C보다 40배 정도 느리다는 JAVA인데… 정작 어플리케이션에서는 그리 차이나 나질 않고 […]
계속 읽기