구글 R&D 센터 건립 가시화

구글 한국 투자 계획 밝힌다. 10월 10일 발표 드디어 소문만 무성했던 구글 R&D센터 건립이 기정 사실화 되는군. 워낙에 양치기 소년 역할을 많이 해서 주변 분위기는 잠잠한듯 하다. 그런데 대체 어디다가 투자를 하는거시야? 안테나를 세워보니 구글에 뽑혔다는 개발자는 한명도 레이더에 안걸리고… 사람 없이 개발센터가 건립이 되려나? 하님 회사를 통째로 인수를 하나? 10월 10일이 무척 기대가 된다. […]

계속 읽기

어제 Ruby 사내 세미나를 했습니다.

이래저래 사내에서 하는 세미나가 상당히 많다. 어제는 Ruby라는 언어의 세미나 였는데 평소 관심을 가져보려고 했던 언어라서 그런지 굉장히 기대를 많이 했고, 또한 많은 도움을 받았다. 장작 90여 페이지에 달하는 세미나 였고 Programming Ruby라는 책을 이용해서 정리를 해오셨는데 Ruby에 대한 열정과 철학을 확 꽤뚫고 계신듯한 강한 인상을 받았다. 덕분에 Python이라는 스크립트언어중에 주로 쓰는 언어하고 많은 비교를 […]

계속 읽기

색인문서 파싱에서 정규식 사용할까?

HTML이든 뭐든 원본문서에서 일단 임시 구조화된 문서로 파싱을 한것을 다시 설정에 따라 파싱을 하는 작업을 하고 있다. 인덱싱에서 0.01초의 퍼포먼스 저하도 용납이 안되니 여러가지를 고민하지 않을 수가 없다. 일단 그 임시구조문서 파싱을 하는것인데, 파싱시 정규식을 쓸까 말까 고민을 많이 했다. 이 정규식이라는 놈이 정규식을 어떻게 쓰느냐에 따라 엄청난 퍼포먼스 차이가 나는 놈인지라 쓸데 안쓸데를 가려서 […]

계속 읽기

Python 2.5가 나왔구나….

Python 2.5 정식버전이 나왔구나.. ㅎㅎ 엄청난 접속량 때문인지 도대체 접속이 제대로 되지 않았지만 윈도우 버전을 다운 받아 설치하고 2.5 버전에는 뭐가 달라졌는지 좀 보고 있다. 이번 버전에 정말 주목한 부분은 ctypes가 추가된것이라 감히 말하겠다. C로 만든 라이브러리를 링크해서 안에 있는 함수들을 쓰는것인데, 이걸 쓰면 모듈안에 C형식의 자료형을 구현해서 쓸 수 있다. 물론 구조체도 역시.. C로 […]

계속 읽기

웹 지도

전에 “링크“라는 책에서 웹의 지도라는 항목이 나왔었는데 이제서야 Google Pagerank 알고리즘을 분석하면서 웹 그래프를 보고 싶어 찾아봤다. from : http://mundi.net/maps/maps_020/ 정말 해파리 처럼 생겼군. ㅋ Munzner의 아이디어를 활용해 Hyun이 자바로 구현한 프로그램으로 만든 웹 그래프이다.(535,102노드와 601,678링크로 이루어 졌다.) 전체적인 웹의 지도를 의미하는건 아닌듯 하고 예제라고 하는데.. 아마도 이런부분에 대한 연구는 구글에서 하고 있지 않을까 한다.구글은 […]

계속 읽기

md5를 해부해보다.

오늘 2주전부터 계획해오던 해쉬(Hash) 세미나를 했다. 세미나의 부주제는 MD5 였다. mining the web 이라는 책을 보면 md5는 문서 중복 검사에 쓰일 수 있다고 나온다. 그리고 실제 내가 실무를 그동안 해오면서 알게 모르게 md5를 써왔었던게 사실이다. 뭐 튜플로 (h(u), v), (h(u’), v’)의 형식으로 문서의 지문을 추출해서 그 지문을 키로 사용해 문서의 중복 여부를 판단하는데 이곳에는 조금의 […]

계속 읽기

요즘 때 늦은 스티브 잡스 동영상이 인기…

올만에 이곳에 일상쪽 포스팅은 하는 이유는 예전에 스티브 잡스 연설에 대한 포스팅을 이곳에 했기 때문이다. 이 연설문을 읽고 그때는 동영상을 못구해서 mp3로 ipod에 넣고 듣고 다녔다. 지금도 이 연설문의 Full 버전이 나의 ipod에 있고 가끔 땡길 때마다 잘 듣는다. 그런데 요즘 이 연설의 동영상에 자막을 입힌 영상이 여러 포탈 동영상에 올라가면서 다시 인기를 얻고 있다. […]

계속 읽기

valgrind Error summary를 꼭 참고하자.

일반적으로 Valgrind는 메모리 릭 판단용으로 많이 쓴다. 주로 “valgrind –leak-check=full args” 형식으로 말이다. 그래서 릭이 어느정도 났는지에 따라서 쭉 따라가면서 릭을 잡아나가는데…. 내내 Error Summary부분이 신경을 쓰지 않고 싶었다. 하지만 이번에 알았다. 그 Error Summary를 무시하지 말자고. 방금전에 memory를 잘못 잡은 상태에서 strcat 함수를 써서 데이터 복사를 해나갔는데 그 부분에서 절대 에러가 나지 않고 다른 […]

계속 읽기

책 : Google PageRank and Beyond

Google PageRank and Beyond라는 책을 구입했다. 물론 conv2님과 서로 지르기 한 다음에 내가 하루 늦게 받았다. (아무래도 conv2님이 선수를 치신거 같다.ㅡㅡ;) 그래서 이 책의 서평은 conv2님에게 뺏겼지만 일단 한번 줄절대 보겠다. 따끈한 사진이다. 일단 페이지 랭크에 개인적인 관심은 별로 없었는데, 예전에 첫눈의 서울대학교 세미나때 강의 자료를 요청해서 보고 싶었는데 바로 거절당하는 바람에 구글의 페이지 랭크를 […]

계속 읽기

Lucene KoreanAnalyzer : 사전 인터페이스 및 음절정보테이블 룩업 메서드 제작 완료

오랫동안 끌어왔던 한국어 사전 인터페이스를 완료 했다. 동적으로 커넥션 관리(품사별로 음절 길이에 따른)를 하게끔 제작을 했고 말이 많았던 Hash, Trie모듈을 이용한 메모리 로딩은 잠시 미루기로 했다. Eclipse로 그려본 사전쪽 클래스 구조다. (품사 음절별 사전 객체는 무조건 하나만 생성된다. 그리고 그 사전객체의 커넥션은 접속을 끊기전에는 계속 연결시켜 놓았다.(색인시 종종 쓰기보다는 매우 자주 사용되기 때문이다.)) 그리고 제공 […]

계속 읽기