기다리는 번역본

Data Crunching: Solve Everyday Problems Using Java, Python, and More 살까 말까 수없이 고민하게 만든책이다. amazon 서평도 좋고 간단히 쓰고 버리는 텍스트 처리 코드들의 소개를 하는 책인거 같은데 아주 실용적일 내용이기 뻔할것이기 때문이다. 국내 Python의 인기와 Java의 인기를 생각해서는 반드시 번역본이 나와줘야되는 책중에 하나라고 생각한다. 아마 번역작업에 벌써 들어가지 않았을까 한다. 또하나는 Programming Ruby: The […]

계속 읽기

고려대학교 컴퓨터과학기술대학원 추계학술제 강연회

10월 12일 11월 12일날이 추계학술제날인데 그날 볼만한 강연회가 있어서 포스팅한다. 뭐 참가 자격은 관심있는 모든분들이고. 소정의 상품까지 있으니 1석2조겠네. 이런 강연은 일부러 찾아다니면서 듣자는 주의인데 누군가 가르쳐 주는것과 혼자서 배우는것과의 차이는 심하기 때문이다. 아직 보름넘게 남았지만 미리 올려본다.

계속 읽기

즉답형 검색엔진 lexxe.com 나왔다

구글처럼 또 하나의 검색엔진 대박기업이 나올지도 모르겠다. 빌게이츠 회장이 지난번 연설에서 말한 작은화면의 모바일 기기에서 사용가능한 검색질의 시스템이 벌써 나온건 아닌지 … 구글만큼 획기적인 서비스가 될 가능성이 다분하군… 그런데 ETRI연구원이 말한 “받침이 있는 한글 특성상 자연어 검색 엔진을 적용하기 어렵다는 것이다. “ 이말이 도대체 무슨뜻으로 한말인지…. 받침이 있어서 적용하기 어렵다는 말은 내가 책도 좀 보고 […]

계속 읽기

OpenOffice 2.0 에서 hwp파일이 보이는군,

개인용 놋북에 오픈소스 소프트웨어 들이 많다. 최근에 나온 OpenOffice 2.0를 깔아서 이래저래 쓰고 있는데 눈에 띄게 좋아진점이 몇개 있다. 거의(?) 완벽에 가까운 Microsoft 제품 제현률과 편집의 유사성 등등은 다들 아실테고.. 소문으로 듣던 Hwp 뷰잉기능이 있었다.(2.X 버전에 탑제될 기능이였다.) 물론 편집해서 hwp 포멧으로 저장은 불가능하다. 대신 그 문서를 다른 포멧으로 저장은 가능하다. 최근에 나온 2005포멧은 인식이 […]

계속 읽기

Lisp을 배울라는데…

윈도에서 Lisp을 배우려고 저녁마다 용을 쓰고 있는데. 이거 emacs하고 Clisp, slime을 연결하는데 5시간을 넘게 끙끙대다가 결국 포기를 했다. 어쩌다 처음 부분에서 잘 연결이 됐다 싶었는데 나중에 Lisp에러가 떨어져서 이래저러 다양한 버전을 깔아서 해보다가 포기했다. 그러다 한국 리습 사용자 모임에서 Lisp in a Box를 한번 사용하는것도 괜찮다고 해서 그거 깔아서 쓰고 있다. 원래 뭔가 설정하는데 그리 […]

계속 읽기

Lisp으로 Spam Filter 만들기

Lisp을 배워볼라고 전부터 이래저래 기웃거렸지만 생소해 보여서 이내 포기하기를 반복했다. 그러다가 어제 뭔 바람이 불었나 Lisp책을 붙잡고 문법을 보기 시작했다. 그리고 LispWorks를 깔고 Shell에다 한줄한줄 연습을 1시간 정도 해봤다. 소감은 굉장히 영어문법적인 언어라는 생각이 들었다. (+ 1 2 3 4) 더한다 1,2,3,4를 이렇게 해석해야 하나… 암튼 여태 배운 언어중에거 가장 문법이 특이한 언어라는건 맞군.. 게다가 […]

계속 읽기

Anchor Text에 대한 고찰

오늘 Crawler 커스터 마이징을 했다.(아주 오랜만이다…) 문제가 있었는데 그 문제라는게.. HTML 한페이지에서 나오는 Url과 Anchor Text를 저장을 하는데 개발하면서 한페이지에서 같은 Url이 다른 Text로 표현되어 나올것이라는 생각은 하지 못하였다. 그래서 계속 덮어 쓰기를 한거였다. 그래서 뉴스수집페이지에서 동일한 Url에 의미가 없는 짧은 Anchor Text가 저장이 된거였다. (뒤에 나오는 Anchor Text가 의미없는 Text였다) 그래서 Anchor Text의 길이를 […]

계속 읽기

형태소 분석기 개발6

검색엔진 개발자 그룹에서 헐랭이님이 아주 좋은 글을 올려주셔서 블로그에 적어본다. 내가 형태소 분석기 전처리 부분에 대한 질문을 올려준것에 대한 답변을 주셨다. 아래와 같이 그대로 한다면 만일 “C++ 템플릿”을 겁색할 경우 “C, 템플릿”만 분리가 될거다. 그렇게 되면 잘못 검색되는 결과가 나오지만 아래 답글은 의미가 있는 글이다. 최소한 어떻게 처리하면 된다 하는 아이디어 제공이라고나 할까… 아무튼 아래 […]

계속 읽기

공개 이미지 관리 툴 및 편집툴

이미지 소프트웨어가 사서 쓰는것들이 많아서 그리고 또한 비싸서 이래저래 무료 공개 소프트웨어를 찾아보곤한다. 고려대학교 라이센스로 그동안 쓰던 알See 사용하는걸 접었다. 화면 캡쳐 기능이 없다는거.. 또한 리소스를 무지 많이 잡아 먹는다는거 그리고 그 아주 눈에 거슬리게 달랑거리는 베너광고 때문이다. 그래서 XnView를 쓴다. 간단한 편집또한 아주 잘되고 뷰잉도 그나마 알See보다는 빠르게 된다. 이거와 더불어 지금 또 깔려 […]

계속 읽기

EditPlus 다시 사용하기

그동안 텍스트 에디터로서는 Crimson Editor를 주로 사용을 해왔다. 이건 Python 개발용도로 처음에 아주 잘 사용을 했다. Crawler및 UrlServer 그리고 여타 다른 Python 코드 조각들을 아주 편리하게 제작을 했었다. 그러다 설정파일을 xml로 입력을 받게 했는데 모듈 자체를 utf-8로 해버렸다. 이건 나중에 Linux나 Unix로 포팅할때 편리함을 강구하기 위해서 그렇게 만들었다. 그러나 왠걸 utf-8을 완벽하게 편집할수 있는 간단한 […]

계속 읽기