웹로봇(Web Crawler) 개발전에 고민해야 할 사항.

출처 : 검색엔진 개발자 그룹

웹 로봇(Web Crawler)개발을 앞두고 이래저래 준비하고 있는게 많은데 개발자 그룹 어떤 고수분이 올린글을 인용해 본다.

1. 웹로봇은 http 프로토콜규약에 의해 이루어지는 것이므로 쉽다는 생각은 금물.

2. HTML 태그 구조에 자신있는가?

웹프로그램을 해본적이 없이 어플리케이션 입장에서 접근한다면 반드시 실패.

3. 개발해서 어디다 써먹을것인가?

그냥 한번 만들어보고 싶다는 생각에서 테스트한다면 상관없으나 웹로봇으로 밥벌이를 할 생각이라면 일찌감치 그만두는것이 나을듯…

수년간 웹로봇에 관심을 가졌지만 내리는 결론은 한숨뿐^^^

나는 어떨까?

1. http 프로토콜에 대한 이해…. 약 1년간 웹 프로그래밍을 해본경험 2개의 사이트 개발 경험 정도… 프로토콜에는 어느정도 자신이 있다.

2. HTML 태그 구조에 자신있는가? … 자신 있다! 더불어 자바 스크립도 자신이 있음…

3. 밥벌어 먹는데 쓸껀데… 큰일이군…. 에공… 공부할 목적도 있다. 분산처리정도까지 욕심이 있으니까..

저번에 기차표 예매 프로그램을 만들때 좀 고생하던게 생각난다. 리다이랙트를 자바 스크립으로 할경우 웹 로봇에서도 분명히 자바 스크립 파서를 만들어 주지 않으면 진입도 하지 못하고 웹로봇의 역활은 끝일것이다.

근데 자바 스크립으로 로그인 하는지 어떻게 알수 있을까????
좀 복잡하다… 같이 일하는 경민씨 말을 들으면 미니 컴파일러같은걸 만들어야 하지 않냐고 한다. 흑~~~~ ^^; (피가 끓는군…ㅎㅎ)

자바로 되어 있는 웹 로봇 소스 분석을 완벽하게 해서 Python으로 만들어 볼라는 찰라인데 좀더 웹 로봇에 대한 기초를 쌓고 작업에 들어가야 겠다. 물론 A.I도 공부해야 는데…

CC BY-NC 4.0 웹로봇(Web Crawler) 개발전에 고민해야 할 사항. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.