Hadoop tutorial workshop 후기

오늘 Hadoop tutorial workshop이 서울대 치대 건물에서 있었다. 회사분들 몇분과 같이 가서 함께 코딩도 해보고 설명도 듣고 참 좋은 시간이 되었던거 같다. 최근 시간을 들여 map/reduce 프로그래밍을 자바기반으로 해보려고 했었는데 딱 예전 느낌을 되살리기 좋은 시간이였고, 좋은 팀들과 설명 많이 들었다. 무엇보다 출간 전부터 상당히 관심이 있었던 구글을 지탱하는 기술 책을 선물로 받을 수 있어서 […]

계속 읽기

집중할 꺼리

요즘 많은 분들이 미디어를 통해 아시는것처럼 야후는 내.외적으로 많은 변화를 겪고 있다. 미국하고 멀리 있는 나라의 말단 직원인 나에게까지 이런 영향이 직접적으로 느껴질 정도이면 정말 말 다했다. 그래도 다행인 것은 그런 어지러운 주변 여건과 상관없이 나에겐 집중할 꺼리가 있다는게 정말 행복하다. 바로 이번에 새로 하게된 번역일인데 시도하기전에는 두려움이 반이였지만 어느새 이 일을 즐기고 있는 나를 […]

계속 읽기

아들에게 반드시 물려줘야 할 것 한가지

때로는 외로움을 달래기 위해서 책을 읽는 경우도 있다. 주변에 독서를 즐겨 하는 사람이 별로 없다. 그래서 좀 외로울때 독서에 대해서 이야기 할 수 있는 사람을 찾는데 그것도 여의치 않으면 결국 맘 편하게 독서에 대한 책을 읽는다.  읽으면서 한껏 공감하고 저자의 독서법을 배우며 꾸준히 독서하는 사람이 나뿐만이 아니라는것을 느낄 수 있게된다. 나에게 공부, 독서에 대한 책들이 […]

계속 읽기

compression ratio 측정 해프닝

2003년인가 누군가가 spam filter에서 compression ratio가 중요한 펙터로 작용한다는 글을 쓴적이 있었다. 이는 스팸문서의 경우 단순한 패턴의 연속표현일 경우가 있다는 가정이 깔려 있다. 그런 문자열의 반복성은 압축 알고리즘의 구현 원리에 따라서 압축률을 측정함으로 간접적으로 측정이 가능할 것이다. 물론 지금 이 feature를 spam 필터링에 쓴다는 이야기는 절대 아니고 다른 작업을 하고 있는데 이 compression ratio가 중요한 […]

계속 읽기

내일은 예방접종날…

아들 예방접종을 하기 위해 휴가를 냈다. 전부터 한번 같이 가보고 싶었는데 이번에 기회를 봐서 한번 관심있게 지켜보고자 한다. 소문으로는 예방접종시 짧고 굵게 운다는 이야기를 들었는데 과연 그럴까 굉장히 기대가 된다. 그나저나 내일 예방접종인 줄도 모르고 웃고만 있군.. ㅋㅋ

계속 읽기

Head First 시리즈에 폭 빠지다.

살면서 내가 원하던 내가 궁금했던 부분이라고 생각한 곳을 시원스래 긁어주는 그런 책을 만나는건 그리 쉬운일이 아니다. 한장 한장 넘길수록 정말 놀라움을 금치 못하는 책이 있었으니 그 책이 바로 Head First 시리즈다. 이전에는 몰랐지만 Head First Statistics를 완독하고 너무 감동을 받아서 이 시리즈를 주목하고 있다. 이 책만큼 hypothesis test / confidence interval을 다양한 확률 분포를 대상으로 […]

계속 읽기

어려운 책 관망하기

일단 그렇게나 배우고 싶었던 Machine Learning에 대해서 조금은 안다고 말할 수 있을거 같다. 이쪽 분야의 교과서라 할 수 있는 T.Mitchell의  Machine Learning 책을 하루에 단 두장밖에 이해하지 못했던 나였는데 이제는 이것보다 더 재미있는 책들을 보고 있으니 말이다. 이 시기에 학교의 도움이 굉장히 컸다. 이 분야를 공부하면서 이런걸 공부하는 사람은 도대체 괴물들이 아닐까 하는 생각까지 했었는데 […]

계속 읽기

2008 한글 및 한국어 정보처리 학술대회

지난 금,토 서울대에서 2008 한글 및 한국어 정보처리 학술대회가 있었다. 개인적인 사정으로 아쉽지만 금요일만 참가했었다. 논문집을 보니 작년 나의 논문을 레퍼런스한 논문이 좀 있었다. ^^;아래 두 논문이 그 논문들이다. 동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가, 이현우(창원대), 한요섭, 김래현(한국과학기술연구원), 차정원(창원대) Topic signature와 n-gram을 이용한 댓글 분류 시스템, 배민영, 차정원(창원대) 첫번째 논문은 동시출현 […]

계속 읽기

통계책들…

올해 처음 봤던 책은 서점에서 직접 고른 앤더슨의 통계학이라는 책이였다. 한동안 이 책만 보면서 통계를 음미했던 시기가 있었다. 게다가 직접 엑셀로 돌려보면서 결과를 확인하는 작업을 직접할 수 있어서 실무에 적용하기 위해 상당한 참고가 되었던 책이였다. 사실 위 책의 내용이 너무 좋아서 살짝 숨기고 있었는데 최근 이것만큼 좋은 책들을 보는 관계로 올려봤다. 두번째 책은 전에도 소개했던 […]

계속 읽기

Disco 0.1 분석하기

최근에 Disco 0.1버전을 살펴보고 있다.이유는 내가 관심을 가지고 있었던 분산처리를 하기 위한 프로젝트이고, 더군다나 Erlang으로 만들어져 있는 몇 안되는 오픈소스 프로젝트중에 하나이기 때문이다. Disco를 가지고 몇몇 map/reduce 프로그램을 돌려봤는데 꽤 괜찮아 보인다. 물론 같은 기능을 하는 Hadoop이라는 걸출한 프로젝트가 있지만 Hadoop이 소잡는 칼이라면 Disco는 닭잡는 칼 정도라고 보면 될거 같다. 분석하면서 내가 여태 간과하다 시피 […]

계속 읽기