어제 산 책

에제 휴가를 내서 이래 저래 일을 보러 다녔다. 먼저 대학원 원서를 내고… 동생을 만난 다음에 용돈좀 쥐어 주고… 바로 반디엔루니스로 향했다. 반디엔 루니스 종로점 새로 오픈한곳을 주로 찾는데 검색대에서 정보검색으로 검색을 하니 몇권을 책이 나와서 차례래로 보다가 눈에 확들어오는 책을 발견했다. 일본인 원 저자의 책을 번역한 책인데. 정보검색개론 이라는 책이다. 블로그 좌 하단에 있는 최신정보검색론 […]

계속 읽기

요즘 관심 분야

요즘 독학(?)으로 정보검색론을 공부하고 있다. 오랜만에 로그, 시그마 기호와 씨름하고 있지만 정말 재미있게 공부하고 있다. 문서를 어떻게 수치화하여 정보라는것으로 만들것인가를 고민하게끔하고 .. 검색어 또한 어떻게 수치화하여 어떤것에 대해서 검색 가중치를 계산할것인가 하는거, 흥미롭다. 게다가 검색 랭킹으로 이어지는 부분은 거의 기절 수준…. 지금하고 있는 웹 로봇에서 정보수집이라는 기능을 하고 있지만 랭킹에서 쓰일만한 뭔가를 발견할수 있을것같은 느낌이 […]

계속 읽기

어제 이상호 교수님을 만나뵙고

웹 로봇을 처음 만들때 정말 많은 도움이 되었던 논문 두 편이 있었다. 웹 로봇 구현 및 한국 웹 통계보고 웹 페이지의 중복 유형 두 논문이다. 중요한 사실은 이 두 논문이 나온 랩이 숭실대 데이터베이스 연구실이다. 두 논문을 보고 대학원에 진학하고자 이상호 교수님을 찾아갔다. 위 두 논문을 쓰신 분인데, 무턱대고 대학원 상담 부탁드린다고해서 찾아간건데 찾아가길 잘 […]

계속 읽기

왜 구글이 Python을 썼는지 이제 알것같다.

Google 프레임웍 Archtecture라는 글에서 구글이 Python을 이용해 웹봇을 만들었다는 이야기를 잠시 언급한적이 있었다. 그때 단지 구글이 Python으로 왜 만들었을까 굉장히 궁금했었다. 그런데 이제는 그 이유를 조금이나마 알것같다. 웹로봇의 속도는 네트웍 속도에 90%이상 로봇의 속도가 좌우가 된다. 실제적으로 내부적인 로직 htmlparser 나 문서 filter같은 경우 input output하는데 얼마 걸리지 않는다 거의 우리가 인지하지 못하는 찰나에 해버린다. […]

계속 읽기

틈틈히 리팩토링한 덕을 이제야 보는구나!

urlserver의 urldata를 지금까지는 메모리에 올려서 중복검사 및 자료 수집을 수행을 했는데 url저장방법을 b+tree 방식으로 바꾸는 작업을 했다. 객체지향 방법론의 덕과 코드간의 Coupling을 줄이기 위해 노력게 빛을 보는 순간이였다. 단지 코드를 바꾸는데 class 3개의 내부 코드를 수정하는것으로 모든게 완료가 되었다. 아주 간단한 코드라도 특징에 맞게 적절한 이름을 지어주어 메소드로 빼놓았던게 정말 도움이 많이 되었다. 코드를 보고 […]

계속 읽기

브라우저 만드시는 분 대단하십니다..

약 한달 조금 넘게 웹 로봇하고 UrlServer를 개발해서 수많은 사이트를 크롤링 했다. 수많은 에러에 봉착하고 수정하고를 개발하고 나서 한 보름정도를 버그 잡는데 보넸다.. 아니…. 프로그램의 버그라기보다는 엉터리 html코드와 header 때문이다….. 마이크로 소프트 익스플로러나 파이어 폭스처럼 유연하게 모든 엉터리 컨텐츠에 대해서 정보를 가질수 있게하려고 코드 수정에 수정을 가하고 있다. 아마도 언젠가…….. 그때가 언제인지는 모르겠지만… 업계 비표준(마소 […]

계속 읽기

웹 로봇 진행상황

지금까지 한일 1. 로봇 프로토콜 모듈 2. html문서인지 파일인지 판단해 다운받는 모듈, 파싱하는 모듈 제작 3. 링크를 FullPath로 만들어주는 모듈…. 상대경로 절대 경로 판단 4. “../”,”./”,”.” 등등 이런 경로일 경우 단축해 주기.. 5. 링크 파서, 텍스트 파서 제작 완료 6. Url에 특수 문자가 있을경우 이걸 ascii코드로 변하는 모듈(“%”,”~”,”SPACE”) 7. 링크를 뽑아오고 그리고 거기에 적절한(?) 제목을 […]

계속 읽기

Python 과 C 결합

오늘 참 오랜만에 포인터 놀이를 했다. 오랜만에 해서 그런지 예전의 C언어의 느낌과는 사뭇 다르다는 생각을 했다. 전에 Python을 맥가이버 칼로 비유 했는데 C는 Hammer 정도라고나 할까? 암튼 강력한 언어인거 같다. 오늘 참 많은걸 했다. dll로 되어 있는 문서 filter 모듈내의 함수를 좀 써볼라고 처음에 고생고생하다가 cpp로 filter factory 함수를 만들어 결국 python 랩핑(Wrapping)하는데 성공했다..^^; 퇴근할라고 […]

계속 읽기

Google 프레임웍 Archtecture

“모방은 창조의 어머니” 내가 관여하는 부분은 그림의 위쪽단인데.. … 시간을 많이 잡아먹는 Sorting 문제와 중복문서 비교 문제 그리고 입출력 퍼포먼스 향상..이 가장 관건이다. 정말 골치 아프다. The Anatomy of a Large-Scale Hypertextual Web Search Engine라는 문서에 구글 프레임웍을 어느정도 소개해줬는데. 그 문서 글을 인용해 보자면… ….Each crawler keeps roughly 300 connections open at once. This […]

계속 읽기