고감자 – 페이지 43 – from __future_

Clojure를 통해 Lisp을 다시 보다.

작성일자 2008년 11월 10일 고감자님이 작성

역시나 언어는 문법을 알고 조금 연습해 본다고 해서 그 언어의 깊은 철학을 이해하는건 아닌가 보다. 문법을 배우고 한 1년 정도는 잘짠 코드들을 보면서 꾸준히 코딩을 해봐야 비로소 그 언어의 깊은 맛을 느낄 수 있을거 같다. Clojure의 문법을 조금 보고 코딩 좀 해보다가 Practical Common Lisp의 예제 코드를 Clojure로 포팅한 사람의 블로그를 보고 있는데 이 포스팅들에서 […]

계속 읽기

Clojure로 짜본 weka API 활용 예제

작성일자 2008년 11월 10일 고감자님이 작성

Weka API와 Clojure를 활용 남자인지 여자인지 맞추는 프로그램을 짜보았다.Weka API와 Clojure 모두 아직 익숙치 않다는 점 염두에 보시길 바란다. ^^; 일단 아래와 같이 학습셋이 주어져 있다. 나이, 성별, 로그인 횟수 40 , 남자, 1020 , 여자, 1310 , 여자, 1530 , 남자, 920 […]

계속 읽기

포털 첫 화면 뉴스 자동 제너레이션 고민들

작성일자 2008년 11월 09일 고감자님이 작성

예전에 포털의 뉴스 편집권에 대한 이야기들이 정치권에서 많은 이슈가 되었던 적이 있었다. 그때 집단지성이라는 말도 나오고 편집 방향에 따른 잘못된 편집들이 이상한 여론을 조장한다는 이야기들이 상당한 반향을 일으켰다. 대표적으로 아고라가 표적이 되기도 했고… 사실 대부분의 포털에서 메인 창에 뜨는 뉴스를 에디터가 직접 편집한다. 물론 이런 에디터들의 교육은 뉴스섹션의 편집장이 하겠지만 말이다. 그래서 포털마다 뉴스의 방향성이 […]

계속 읽기

clojure에 대한 생각들

작성일자 2008년 11월 07일 고감자님이 작성

요즘 weka와 JDM 같은 데이터 마이닝 자바 패키지에 관심을 보이고 있는데, 실제 자바로 데이터 처리를 하고 요런 라이브러리에 넣을 라고 하니 영 불편하게 아니다. 원래 이런 것을 돌릴때는 데이터에 이런 저런 추가적인 작업을 많이 해준다. scaling은 기본이고 몇가지 필드를 추가해보고 돌려보고, 빼고 돌려보는 과정을 수도없이 반복해보는 과정이다. 물론 이런 과정은 경험에 따라서 단축이 될수 있는 […]

계속 읽기

번역을 시작 합니다.

작성일자 2008년 11월 06일 고감자님이 작성

출판사 가서 번역관련 계약하고 본격적인 번역 일정에 들어갔다. 책 번역은 처음인데 의외로 쉬울거 같다는 생각 반, 만만치 않을거 같다는 생각 반이다. 이로서 올해의 목표는 영어 논문작성을 제외하고 다 이룬거 같다. (물론 번역작업이 끝난건 아니지만.) 그리고 내년에는 꼭 책을 써보는 방향으로 잡아보자! ps. 번역을 시작하는데 많은 조언을 주신, conv2님, 정진호 차장님 감사합니다. 덧붙여 이런 낮선 분야에 […]

계속 읽기

clojure

작성일자 2008년 11월 06일 고감자님이 작성

clojure를 좀 살펴보고 있다. 일단 Lisp과 비슷한 문법을 쓰고 있는 관계로 많이 끌렸던 언어이고, Lisp이나 Scheme이 교육용 언어로 사용되어 지는 한계 상황에서 시기 적절하게 나온 언어인거 같다. Lisp 계열의 언어가 문법의 간결함과 더불어 코딩하는 맛이 나는 장점이 있는데 이들이 범용적인 개발 라이브러리의 지원 및 통일된 라이브러리의 기준이 없어 실패했다면 이 clojure는 Java VM위에서 그대로 돌아가며 […]

계속 읽기

Collective Intelligence In Action 원서 출간하다.

작성일자 2008년 11월 04일 고감자님이 작성

출판사로부터 PDF원본을 받아서 읽어 보고 있다. 목차가 대부분 내가 지금까지 해왔던 것들, 공부했던 것들과 굉장히 밀접한 관련이 있다.Lucene, Weka, Nutch 그리고 Machine Learning, Data Mining 등등그래도 이 책은 한명의 독자의 입장으로서도 많이 기다려온 책이다. ^^ 이 책의 저자역시 Bio관련 회사에서 일하는거 같은데 역시나 생명공학 부분에서 집단지성을 발현하는 메커니즘 관련해 더 전문성을 인정받는 것 같다.아까 회사 […]

계속 읽기

머신러닝 결과물을 좋게하기 위한 방법

작성일자 2008년 10월 31일 고감자님이 작성

오늘 책을 좀 보다가 정말 주옥과 같은 표현을 발견했다. Jackson and Moulinier (2002) suggest that “Understanding the data is one of the keys to successful categorization, yet this is an area in which most categorization tool vendors are extremely weak. Many of the `one size fits all’ tools on the market have not been tested […]

계속 읽기

Hadoop 헤게모니 논쟁을 벗어나자!

작성일자 2008년 10월 30일 고감자님이 작성

어제 Hadoop 커뮤니티 모임이 Daum에서 있었다. 그 모임에서 Daum에 계시는걸로 보이는 어떤분이 MPI로도 가능한데 Hadoop으로 꼭히 써야될 필요가 있는가에 대해서 굉장히 열정적으로(?) 조목조목 hadoop의 단점과 문제점에대한 질문을 하셨다. 처음에는 질문이 날카로웠지만 점점 끝나지 않을거 같은 헤게모니 논쟁으로 흘러가는 분위기였다. ㅡㅡ; 솔직히 MPI를 사용해본적은 없고 멀티코어CPU 관련된 프로그래밍 라이브러리 이야기 할때 잠깐 소개를 받은적이 있었다. 메시지 […]

계속 읽기

compression ratio 측정 해프닝

작성일자 2008년 10월 30일 고감자님이 작성

2003년인가 누군가가 spam filter에서 compression ratio가 중요한 펙터로 작용한다는 글을 쓴적이 있었다. 이는 스팸문서의 경우 단순한 패턴의 연속표현일 경우가 있다는 가정이 깔려 있다. 그런 문자열의 반복성은 압축 알고리즘의 구현 원리에 따라서 압축률을 측정함으로 간접적으로 측정이 가능할 것이다. 물론 지금 이 feature를 spam 필터링에 쓴다는 이야기는 절대 아니고 다른 작업을 하고 있는데 이 compression ratio가 중요한 […]

계속 읽기