Disco 0.1 분석하기

최근에 Disco 0.1버전을 살펴보고 있다.이유는 내가 관심을 가지고 있었던 분산처리를 하기 위한 프로젝트이고, 더군다나 Erlang으로 만들어져 있는 몇 안되는 오픈소스 프로젝트중에 하나이기 때문이다. Disco를 가지고 몇몇 map/reduce 프로그램을 돌려봤는데 꽤 괜찮아 보인다. 물론 같은 기능을 하는 Hadoop이라는 걸출한 프로젝트가 있지만 Hadoop이 소잡는 칼이라면 Disco는 닭잡는 칼 정도라고 보면 될거 같다. 분석하면서 내가 여태 간과하다 시피 […]

계속 읽기

번역에 대한 책

예비군 훈련에 가서 책 두권을 읽고 왔다고 했는데, 그 책중에 한권이 번역에 대한 책이였다. 번역을 시작한다면 한번정도 읽어봄직한 책이였다. 여태 번역을 하시는 주변분들에게 들었던 많은 팁들이 책에 자세하게 나와있었다. 나도 번역한번 해볼까? 책에서 나온 번역가로서 갖추어야 할 것들은 함축적으로 아래의 문장에 나와 있다. 번역은 외국어를 ‘좀’해서는 어림도 없습니다. 번역하려는 분야와 관련된 지식과 새로운 지식을 빠르게 […]

계속 읽기

장교 대상 동원훈련을 다녀오다.

동원훈련으로 다녀왔다. 솔직히 현역시절에는 나름대로 사명감을 가지고 군생활을 했었는데 예비군때는 많이 약해 지는듯 싶다. 이제 5년차 훈련을 마치고 훈련으로 치면 1년 남았다. 장교 전역자가 좀 길다고 하던데 벌써 5년차여서 그런지 이제는 좀 지겹기도 하다. 늘어난 뱃살이 그 세월의 흐름을 확연하게 느끼게 해주곤 하는데 그래도 다행인게 예전 군대적 쓰던 혁대로 대충 사용이 가능했다. 1년차 훈련때 강원도 […]

계속 읽기

검색 성능 개선의 두가지 방법

월간 마소에 기고글을 넘겼는데 적은 분량에 하고 싶은 이야기는 많고 수식을 최대한 줄이고 하려니 거의 주화입마에 걸릴뻔 했다. 검색 성능 개선을 위한 두 가지 방법에 대해서 설명하고 각 기술들의 차이점과 구현시 신경써야될 부분들에 대해서 썼다.초기 의도했던 부분들의 내용도 들어 있지만 개인적인 생각과 관점을 줄이고 기술적인 내용을 첨가하려 노력했다. 두 가지 방법이란 흔히 편집기술이라고 이야기 하는 […]

계속 읽기

꽤 재미있는 통계책

Head First Statistics 목차가 평범해서 기대하지 않고 보고 있는데 꽤 재미있다. 아는 내용이더라도 예제가 재미있어서 그런지 흡사 만회책을 보는것 같다. 스토리가 있다고나 할까? Head First 시리즈는 디자인 패턴 이후로 두번째인데 이제서야 Head First 시리즈를 음미하고 있구나 하는 생각까지 든다. 아무튼 처음 통계를 접하는 분들에게는 강추인 책이다. 통계를 잘 알고 있다고 해도 한번정도 자신의 지식을 점검해보기 […]

계속 읽기

Bias-Variance Tradeoff

머신런닝을 이용한 분류기를 만들때 가장 많이 나오는 유명한 개념중에 하나이다. 분류기를 만들어서 테스트 하는 과정을 거치며 많은 에러들이 나오게 된다. 이런 에러들을  MSE로 분석해보면 Learning Error = bias + variance 위와 같은 식으로 간단하게 정리된다. Bias는 학습된 분류기와 실제 값 사이의 제곱에러이다. 정확도하고 약간 비슷한 개념이다. 이 bias는 linear한 분류기보다 nonlinear한 분류기가 낮은 값으로 나온다. […]

계속 읽기

Was TNC headhunting company?

Google “We need more Korean developer” …Lois Kim said “We do not concern extending contents with TNC’s, but mainly concern on making better R&D capability with TNC developer.” “It’s not yet decided blogging service will be started with TNC.”…… On Google’s view, TNC was not a blog platform company, but headhunting company with good developer […]

계속 읽기

통계에 대한 두가지 책

오라일리에서 통계에 대한 두가지 책이 나왔다. 첫번째는 Head First Statistics책인데 아마존에서 주문한지 하루만에 한빛 미디어에서 수입했다고 메일 공지가 오더라. (벌써 shipping이 되었다고 해서 취소도 못하는 상황이다. ㅜㅜ)  게다가 더불에 Statistics in a Nutshell 도 나왔는데 한 출판사에서 컴퓨터관련 서적만을 취급하는 두가지 시리즈 모두에 통계라는게 나왔다는건 큰 의미가 있다고 생각한다. 여튼 성격이 다른 두가지 책을 모두 […]

계속 읽기

Disco 0.1 – 얼랭으로 만든 오픈소스 분산 컴퓨팅 프레임웍

8월 마소잡지에 Erlang으로 Map/Reduce 프레임웍을 만드는 예제로 만든적이 있었다. 이 글 이후에 외부 스크립트로 Python을 사용하는 포스팅을 쓴적이 있었다. 사실 위 글은 내가 만든 map/reduce 프레임웍에서 Python 외부 스크립트를 사용하기 위한 방법을 고안하기 위해 했던 작업의 일환이였다. 그러나 내가 생각했던 수준보다 더 많은 고민을 한 오픈소스 프로젝트가 얼마전에 공개되었다. 좀 촌스러운 프로젝트 이름인지 몰라도 Disco […]

계속 읽기