2006년 10월 13일(금) 검개그 공식 오프모임

검색엔진 개발자 그룹 정모를 실시한다. 자세한 내용은 아래에… 안녕하세요 검개그 여러분 검개그의 희망, 검개그의 횃불, 검개그의 소금, 검개그의 미래 유흥을 책임지고 있는 유흥부장 인사드립니다 2006년 10월 13일(금), 검개그 공식 오프모임에 관한 공지를 올리려 합니다 이번 모임은 정말로 공식적으로 진행되는 것입니다 그동안 저의 자발적 참여 의지와 노력으로 이루어진 비공식 오프와는 완연히 다른 것이죠 – 내 용 […]

계속 읽기

Ruby로 짜본 구글 PageRank 알고리즘

오늘 집에 있으려니 좀이 쑤셔서 요즘 공부하고 있는 Ruby로 그동안 틈틈히 봐두었던 Google PageRank 알고리즘을 짜보았다. 물론 콘솔 기반으로 만들었고 이해하기 위해서는 약간의 링크 메트릭스에 대한 지식이 필요하다. 노드의 갯수? 이것은 웹문서의 갯수라고 생각하면 된다. 스샷에서는 3개라고 했으니 이 프로그램 전체에 있는 웹문서는 3개뿐이다. 이 3개 노드 사이에서 서로 링크에 관련된 정보가 필요한데 이것이 바로 […]

계속 읽기

Search Engine Matrix Revolution 10월 10일을 기대하며!

검색엔진 개발자의 로망인 구글 R&D센터에 대한 상세 발표가 이제 몇일 남지 않았다. 서명덕 기자님의 블로그에 들어갔다가 재미난 동영상이 있어 두고두고 볼려구 퍼왔다. 이름하여 Search Engine Matrix Revolution 메트릭스 동영상인데 갑자기 집에 내려가면서 메트릭스3를 보고 싶은 생각에 사로잡혔다. ㅎㅎ 구글이 R&D 센터를 국내에 설립하는건 검색엔진 개발자로서는 쌍수를 들고 환영할 일이다. 그 “don’t be evil”이라는 구글의 구호처럼 […]

계속 읽기

집에 오자마자 정석책 보고나서 글쓰기…

서울에 있는 내 방에서 가장 오래된 책은 바로 ‘수학의 정석’이다. 대학원 공부하면서도 심심치 않게 꺼네보는 책도 역시 ‘수학의 정석’이다. 그때 아무 느낌없이 다가오던 걸듯이 왜 이제서야 커다란 의미로 다가오는지….쩝 구글 페이지 랭크 공부하면서 Matrix부분에 대한 공부가 좀 필요할거 같아서 “선형대수학”(서점에서 가장 얆은 책은 골랐다)을 구입해서 잼나게 보구 있는데, 여기서 벡터의 내적쪽에 가니까 코사인 제2법칙이 나오더라. […]

계속 읽기

구글 R&D 센터 건립 가시화

구글 한국 투자 계획 밝힌다. 10월 10일 발표 드디어 소문만 무성했던 구글 R&D센터 건립이 기정 사실화 되는군. 워낙에 양치기 소년 역할을 많이 해서 주변 분위기는 잠잠한듯 하다. 그런데 대체 어디다가 투자를 하는거시야? 안테나를 세워보니 구글에 뽑혔다는 개발자는 한명도 레이더에 안걸리고… 사람 없이 개발센터가 건립이 되려나? 하님 회사를 통째로 인수를 하나? 10월 10일이 무척 기대가 된다. […]

계속 읽기

어제 Ruby 사내 세미나를 했습니다.

이래저래 사내에서 하는 세미나가 상당히 많다. 어제는 Ruby라는 언어의 세미나 였는데 평소 관심을 가져보려고 했던 언어라서 그런지 굉장히 기대를 많이 했고, 또한 많은 도움을 받았다. 장작 90여 페이지에 달하는 세미나 였고 Programming Ruby라는 책을 이용해서 정리를 해오셨는데 Ruby에 대한 열정과 철학을 확 꽤뚫고 계신듯한 강한 인상을 받았다. 덕분에 Python이라는 스크립트언어중에 주로 쓰는 언어하고 많은 비교를 […]

계속 읽기

색인문서 파싱에서 정규식 사용할까?

HTML이든 뭐든 원본문서에서 일단 임시 구조화된 문서로 파싱을 한것을 다시 설정에 따라 파싱을 하는 작업을 하고 있다. 인덱싱에서 0.01초의 퍼포먼스 저하도 용납이 안되니 여러가지를 고민하지 않을 수가 없다. 일단 그 임시구조문서 파싱을 하는것인데, 파싱시 정규식을 쓸까 말까 고민을 많이 했다. 이 정규식이라는 놈이 정규식을 어떻게 쓰느냐에 따라 엄청난 퍼포먼스 차이가 나는 놈인지라 쓸데 안쓸데를 가려서 […]

계속 읽기

Python 2.5가 나왔구나….

Python 2.5 정식버전이 나왔구나.. ㅎㅎ 엄청난 접속량 때문인지 도대체 접속이 제대로 되지 않았지만 윈도우 버전을 다운 받아 설치하고 2.5 버전에는 뭐가 달라졌는지 좀 보고 있다. 이번 버전에 정말 주목한 부분은 ctypes가 추가된것이라 감히 말하겠다. C로 만든 라이브러리를 링크해서 안에 있는 함수들을 쓰는것인데, 이걸 쓰면 모듈안에 C형식의 자료형을 구현해서 쓸 수 있다. 물론 구조체도 역시.. C로 […]

계속 읽기

웹 지도

전에 “링크“라는 책에서 웹의 지도라는 항목이 나왔었는데 이제서야 Google Pagerank 알고리즘을 분석하면서 웹 그래프를 보고 싶어 찾아봤다. from : http://mundi.net/maps/maps_020/ 정말 해파리 처럼 생겼군. ㅋ Munzner의 아이디어를 활용해 Hyun이 자바로 구현한 프로그램으로 만든 웹 그래프이다.(535,102노드와 601,678링크로 이루어 졌다.) 전체적인 웹의 지도를 의미하는건 아닌듯 하고 예제라고 하는데.. 아마도 이런부분에 대한 연구는 구글에서 하고 있지 않을까 한다.구글은 […]

계속 읽기

md5를 해부해보다.

오늘 2주전부터 계획해오던 해쉬(Hash) 세미나를 했다. 세미나의 부주제는 MD5 였다. mining the web 이라는 책을 보면 md5는 문서 중복 검사에 쓰일 수 있다고 나온다. 그리고 실제 내가 실무를 그동안 해오면서 알게 모르게 md5를 써왔었던게 사실이다. 뭐 튜플로 (h(u), v), (h(u’), v’)의 형식으로 문서의 지문을 추출해서 그 지문을 키로 사용해 문서의 중복 여부를 판단하는데 이곳에는 조금의 […]

계속 읽기