월요일부터 웹로봇을 맡게 되었다.

월요일부터 웹로봇을 맡게 되었다.

자바로 되어있는 코드 분석은 해봤는데 좀더 많은 정보가 필요해서 집에서 여러 정보를 찾아보면서 생각해 봤다.

자바로 되어있던것하고 현재 C로 만든 웹로봇과 비교해서 Crawling 속도 비교를 한적이 있었는데 자바 속도가 좀 빨랐던 기억이 난다. 역시나 언어 논쟁은 쓸데 없는짓이라는걸 이때 알았다.
C보다 40배 정도 느리다는 JAVA인데… 정작 어플리케이션에서는 그리 차이나 나질 않고 더 빠를 수가 있다니 말이다..

누군가 했던 말이 생각난다. 어플리케이션의 퍼포먼스를 좌지우지 하는건 언어가 아니라 로직 즉 알고리즘 이라고 정말 공감….

문자열 처리에 강한 파이썬을 이용해서 만들어 볼려고 생각하고 있다 그리고 파싱하는 부분을 C로 해서 좀 퍼포먼스를 올려볼까 하는데 어짜피 파이썬에서 html 파싱하는 모듈이 최적화 되어 있으니 그냥 사용해도 될법하다.

관건은 얼마나 정규식을 유동성 있게 잘 씀으로써 양질의 링크를 가져올지 고민 하는거다.
인수인계 받으면서 들었는데 링크 테그 패턴 인식을 if 문으로 하는거 같다는 느낌을 받았다…Oh~~No….. 이건 아니다 싶다 코딩량도 줄일수 있고 최적화되고 유지보수하기 편한 정규식이라는것이 있는데….음~~
역시나 요즘 공부하고 있는 정규식을 많이 이용하게 될거 같다.

좀 똑똑한 로봇을 만들기 위해 로봇 상호간 통신도 가능하게 하면 좋을텐데.. 아마도 이런건 포털사이트를 만들때 도움이 많이 될거 같다. 또… 쓰레드를 쓸곳이 딱 한군데 에서만 쓰자.

그리고 깡패로봇이라는 소리를 안들을수 있도록 로봇 프로토콜을 꼭 지키자.
http://루트/robots.txt 에 정의된 부분을 꼭 준수하도록 하자.. 안지켜도 되는 프로토콜이지만 최소한의 메너이니까…

네이버에서 검색해보니 이런게 나오네..
이런 좋은 문서가 있으니 탐독해서 내껄로 만들어야겠다.
Robot agents and Search Engine

http://blog.naver.com/nunknjp.do

http://blog.naver.com/nutch.do

주말 휴일이지만 공부좀 해보자고..~~~

CC BY-NC 4.0 월요일부터 웹로봇을 맡게 되었다. by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.