좋은 봇, 나쁜 봇

봇을 개발해봤고 개발하고 있는 개발자 입장에서 좋은 봇과 나쁜 봇에 대해 정의된 글이 있어서 소개해본다. 좋은 봇 robots.txt를 준수하는 로봇 굉장히 빠른 속도로 크롤링해서 사이트에 부담을 주지 않는 로봇 적당한 시간에 신선한 자료를 가져오는 로봇 특정한 사이트를 크롤링하는데 소요한 트래픽 자료를 리턴한다. 나쁜 봇 컨텐츠를 접근하기 위해 수단과 방법을 가리지 않는다. robots.txt를 지키지 않는 봇 […]

계속 읽기

웹 로봇 만들기 위한 참고 도서 추천

검색엔진공부 모델링에 대한 글을 예전에 쓴적이 있다. 여기 보면 웹로봇은 “쓸만한 전문도서 없음”이라고 되어 있다. 뭐 그래서 이곳에 덧붙이고자 포스팅을 써본다. 웹로봇을 개발을 하다 보니 이런저런 책을 많이 찾아보게 되는게 사실이다. 그중에서 가장 많은 도움이 된 책을 꼽아 본다면 HTTP: The Definitive Guide라는 책이다. Ch.9에서는 웹로봇을 위한 단원까지 마련되어 있다. 물론 HTTP 프로토콜을 이정도로 다룬 […]

계속 읽기