Hadoop 한글 인코딩 문제

이 문제는 한 9개월 전에 Hadoop으로 미니 프로젝트를 하면서 날려본 문제다. 문제를 해결하기 위해 백방으로 알아보고(심지어 더그커팅에게 문의까지…) 엄청난 삽질을 했지만 문제 해결을 위한 결정적 단서를 김형준님께서 주셨었다. 알다시피 자바는 유니코드, utf8기반이다. 그래서 로그 처리를 하고 역색인 파일을 만드는데 입력 파일을 utf8로 변환을 해서 Hadoop 5대의 머신에 넣고 설치를 했다. 뭐 처음에 영문으로만 간단하게 테스트 […]

계속 읽기

프로그래밍을 사랑하는 사람

얼마전에 출간된 사랑하지 않으면 떠나라 라는 책을 틈틈히 보고 있다. 처음부터 이 책에 대한 몰입도는 대단했다. 책에서 제기하는 문제의 출발점은 “급변하는 IT기술 그리고 개방되는 개발자 시장에서 어떻게 하면 성공(?)할 수 있는가“에 대해서 이야기 하고 있다. 아직 1/5 정도 밖에 읽지 않았지만 이전무터 내가 이야기 해온 “개발자의 새로운 언어 배우기 성향”이 채용자 입장에서 좋은 사람을 뽑는 […]

계속 읽기

SICP 2.23 풀이 – scheme –

고민하다가 답만 봐볼라고 인터넷 뒤져보다 몇몇 답들이 조금씩 틀려 있길래 그냥 풀어본거 올려본다. [CODE Ruby ](define (for-each func tlist)   (if (not (null? tlist))      (begin              (func (car tlist))              (for-each func (cdr tlist))             )      )  […]

계속 읽기

블로깅하다 죽을 검색 결과갯수.

xkcd블로그에서 본 그림인데, 그래프상으로는 꽤 설득력이 있다. 하지만 현재 (2008.01.14 19:13) 검색 결과로 봤을땐(died in a blogging accident) 블로깅 하다 죽을 검색 결과가 12.5k 정도 나오는거 같다. 그럼 야후의 결과는?  19.7k 정도 나오는군… (요즘 커버리지 늘린 결과인가? ㅋㅋ) 이런걸 보면 인터넷 참 재밋는 세상이다라는 생각이 새삼 든다. 얼마나 블로깅 하다가 죽을 포스팅을 많이 썼으면 이리 […]

계속 읽기

Full 논문 공개와 데이터 공개

어제 교수님께서 학습 데이터하고 논문 파일 보내달라고 하셔서 정리하다가 이왕이면 다른 실험 하시는 분들도 참고하시라고 이렇게 모두 공개한다. 단, 동의하여야될 부분은… 이 판정 데이터의 정확도 여부에 대해서는 책임을 지지 않는다는 것과, 반드시 학술 목적으로 사용해야 한다는 조건을 붙인다. 위의 사항에 동의하시는 분들만 받아서 사용하길 바란다. 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 […]

계속 읽기

IBM Developer Networks에 기고 준비 작업

IBM Developer Networks에서 기고문의를 해주셔서 감사히(?) 그리고 열심히 문서와 코딩 작업중인데 이번에는 요즘 관심있어 하는 Scheme(Lisp)을 이용해서 예제코드를 만들어 볼까 생각중이다. (전적으로 나만의 생각이고 외압에 의해 바뀔수도 있다. ㅋ ) 사실 많은 기술컬럼들이 “무슨 무슨툴을 이용해서 뭘 하기” 이런식들이라(내가 좀 꺼려하는) 상당히 고민하면서 원고작업을 하고 있다. 아시다시피 툴을 이용하는것 보다는 직접 만들어서 입맛대로 고쳐쓰는 개발 […]

계속 읽기

구글이 20 petabyte의 데이터를 얼마만에 처리할까?

구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다. 20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다. 이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다. XEuFb8k3ap.pdf 2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도  약간 초록에 나와 있다. Yahoo의 Hadoop 클러스터 […]

계속 읽기

Java를 첫 언어로 선택한 죄악?

어릴적에 Basic, C 언어 공부를 했지만 실무를 시작하면서 Java를 처음 쓰기 시작했었다. 이전의 언어와는 다르게 Java는 프로그래밍의 편리성을 가져다 주었고 이미 고전적으로 고민해야 했던 많은 구현단의 이슈들을 강력한 라이브러리로 해결해 주었다. 게다가 이런것을 속성과정으로 가르치는 학원도 나왔고 나 역시 그런 학원 중 한곳에서 열심히 Java를 배웠었다. Java 이후에 Delphi, C, Python , C++ 을 거치면서 […]

계속 읽기

인사이트 출판사 방문

몇일전 인사이트 출판사 사장님께 집필 및 번역에 대해 이야기 해보자는 메일을 받고 오늘 바로 인사이트 출판사를 찾았다. 물론 내가 번역을 제안하는 책은 딱 두권이였으나 사장님은 번역보다는 집필을 유도하시는 듯 했다. 집필은 아직 살짝 부담이 되는 부분이 없지 않아 있어서 망설였지만 나름 집필을 통해서 내가 더 많이 배울 수도 있겠구나 하는 생각이 들어서 긍정적인 생각으로 방향을 […]

계속 읽기

꿈이 있는 아내는 늙지 않는다.

꿈이 있는 아내는 늙지 않는다. 약 한달전에 여자친구에게 선물해 준 책의 제목이다. 요즘 여자들의 인생을 일깨우는 책들이 서점에 상당히 많이 나오고 있는것을 알 수 있는데, 여성들이 사회생활을 하면서 인생을 능동적으로 영위하고자 하는 그런 욕구의 결과가 이런 책이 베스트셀러에 오르는 큰 역할을 하지 않았을까 생각한다. 정말 베스트셀러 목록을 보면 많은 사람들의 요즘 관심사를 엿볼 수 있는 […]

계속 읽기