clojure에 대한 생각들

요즘 weka와 JDM 같은 데이터 마이닝 자바 패키지에 관심을 보이고 있는데, 실제 자바로 데이터 처리를 하고 요런 라이브러리에 넣을 라고 하니 영 불편하게 아니다. 원래 이런 것을 돌릴때는 데이터에 이런 저런 추가적인 작업을 많이 해준다. scaling은 기본이고 몇가지 필드를 추가해보고 돌려보고, 빼고 돌려보는 과정을 수도없이 반복해보는 과정이다. 물론 이런 과정은 경험에 따라서 단축이 될수 있는 […]

계속 읽기

번역을 시작 합니다.

출판사 가서 번역관련 계약하고 본격적인 번역 일정에 들어갔다. 책 번역은 처음인데 의외로 쉬울거 같다는 생각 반, 만만치 않을거 같다는 생각 반이다.  이로서 올해의 목표는 영어 논문작성을 제외하고 다 이룬거 같다. (물론 번역작업이 끝난건 아니지만.) 그리고 내년에는 꼭 책을 써보는 방향으로 잡아보자! ps. 번역을 시작하는데 많은 조언을 주신, conv2님, 정진호 차장님 감사합니다. 덧붙여 이런 낮선 분야에 […]

계속 읽기

clojure

clojure를 좀 살펴보고 있다. 일단 Lisp과 비슷한 문법을 쓰고 있는 관계로 많이 끌렸던 언어이고, Lisp이나 Scheme이 교육용 언어로 사용되어 지는 한계 상황에서 시기 적절하게 나온 언어인거 같다. Lisp 계열의 언어가 문법의 간결함과 더불어 코딩하는 맛이 나는 장점이 있는데 이들이 범용적인 개발 라이브러리의 지원 및 통일된 라이브러리의 기준이 없어 실패했다면 이 clojure는 Java VM위에서 그대로 돌아가며 […]

계속 읽기

Collective Intelligence In Action 원서 출간하다.

출판사로부터 PDF원본을 받아서 읽어 보고 있다. 목차가 대부분 내가 지금까지 해왔던 것들, 공부했던 것들과 굉장히 밀접한 관련이 있다.Lucene, Weka, Nutch 그리고 Machine Learning, Data Mining 등등그래도 이 책은 한명의 독자의 입장으로서도 많이 기다려온 책이다. ^^ 이 책의 저자역시 Bio관련 회사에서 일하는거 같은데 역시나 생명공학 부분에서 집단지성을 발현하는 메커니즘 관련해 더 전문성을 인정받는 것 같다.아까 회사 […]

계속 읽기

머신러닝 결과물을 좋게하기 위한 방법

오늘 책을 좀 보다가 정말 주옥과 같은 표현을 발견했다. Jackson and Moulinier (2002) suggest that “Understanding the data is one of the keys to successful categorization, yet this is an area in which most categorization tool vendors are extremely weak. Many of the `one size fits all’ tools on the market have not been tested […]

계속 읽기

Hadoop 헤게모니 논쟁을 벗어나자!

어제 Hadoop 커뮤니티 모임이 Daum에서 있었다. 그 모임에서 Daum에 계시는걸로 보이는 어떤분이 MPI로도 가능한데 Hadoop으로 꼭히 써야될 필요가 있는가에 대해서 굉장히 열정적으로(?) 조목조목 hadoop의 단점과 문제점에대한 질문을 하셨다. 처음에는 질문이 날카로웠지만 점점 끝나지 않을거 같은 헤게모니 논쟁으로 흘러가는 분위기였다. ㅡㅡ; 솔직히 MPI를 사용해본적은 없고 멀티코어CPU 관련된 프로그래밍 라이브러리 이야기 할때 잠깐 소개를 받은적이 있었다. 메시지 […]

계속 읽기

compression ratio 측정 해프닝

2003년인가 누군가가 spam filter에서 compression ratio가 중요한 펙터로 작용한다는 글을 쓴적이 있었다. 이는 스팸문서의 경우 단순한 패턴의 연속표현일 경우가 있다는 가정이 깔려 있다. 그런 문자열의 반복성은 압축 알고리즘의 구현 원리에 따라서 압축률을 측정함으로 간접적으로 측정이 가능할 것이다. 물론 지금 이 feature를 spam 필터링에 쓴다는 이야기는 절대 아니고 다른 작업을 하고 있는데 이 compression ratio가 중요한 […]

계속 읽기

sigmoid 함수를 이용한 확률값 만들기

값을 0 ~ 1 사이의 값으로 사상시켜주는 함수이다. 이거 말고 비슷한 tanh 함수등이 있지만 이 함수가 가장 많이 알려져 있다.     sigmoid function   위 함수가 가장 많이 쓰이는 곳은 역시나 neural network (ANN) 알고리즘일 것이다.   사실 저 수식을 암기하는것보다 위 그래프를 보면서 어떨때 쓰면 좋을까 생각해보는것도 꽤 재밋다. 0 ~ 1 사이의 […]

계속 읽기

GIGO에 대한 두가지 관점

데이터를 핸들링 하는 사람들이 가장 많이 듣는 말중에 하나가 GIGO(Garbage In, Garbage Out)이라는 말이다. 이는 “잘못된 데이터가 입력이 되면 아무리 알고리즘이 좋고 퍼포먼스가 좋은 시스템이 있더라도 결국 잘못된 값을 출력할 수 밖에 없다” 라는 의미를 내포하고 있다. 그러나 통계쪽나 ML쪽을 하다보면 많은 사람들이 GIGO의 의미를 잘못 이해하고 있다는것을 볼 수 있다. 바로 Garbage In, Gospel […]

계속 읽기

내일은 예방접종날…

아들 예방접종을 하기 위해 휴가를 냈다. 전부터 한번 같이 가보고 싶었는데 이번에 기회를 봐서 한번 관심있게 지켜보고자 한다. 소문으로는 예방접종시 짧고 굵게 운다는 이야기를 들었는데 과연 그럴까 굉장히 기대가 된다. 그나저나 내일 예방접종인 줄도 모르고 웃고만 있군.. ㅋㅋ

계속 읽기