지금까지 한일
1. 로봇 프로토콜 모듈
2. html문서인지 파일인지 판단해 다운받는 모듈, 파싱하는 모듈 제작
3. 링크를 FullPath로 만들어주는 모듈…. 상대경로 절대 경로 판단
4. “../”,”./”,”.” 등등 이런 경로일 경우 단축해 주기..
5. 링크 파서, 텍스트 파서 제작 완료
6. Url에 특수 문자가 있을경우 이걸 ascii코드로 변하는 모듈(“%”,”~”,”SPACE”)
7. 링크를 뽑아오고 그리고 거기에 적절한(?) 제목을 붙여주는것 까지 완료를
헉헉~~~
생각외로 신경써야할일이 많았다.
URL을 Fullpath로 만들때 통일 해야 할것들이 의외로 많았다..
이게 제대로 안되면 URL 중복검사 하는게 쓸모가 없어지고 로봇이 쓸데없는 페이지에 접근하게 된다.
아무래도 URL 중복 검사는 기본으로 해야할거 같고… 문서 중복 검사도 역시나 해야 할것 같다.
주소가 다른데 같은 문서일 경우가 있으니까..
예를 들어 게시판이 그렇다..
get방식으로 게시판을 보여주기 때문에 인자로 뭐가 넘어가느냐에 따라 다르고 그 인자를 가지고 DB를 검색해 보여줄수도 있기 때문이다..
근데 진짜 개발하는거 잼있다…ㅋㅋㅋ
글구 로봇 개발하는데 이번에 좋은 참고서 하나 발견했다..
전반적으로 HTTP 환경에 대해서 이야기하는데
9번 챕터에 로봇에 관한 이야기는 정말 많은 도움이 된거 같다.
헉…. 근데 벌써 품절이 되버렸넹…
웹 로봇 진행상황 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.