GIGO에 대한 두가지 관점

데이터를 핸들링 하는 사람들이 가장 많이 듣는 말중에 하나가 GIGO(Garbage In, Garbage Out)이라는 말이다. 이는 “잘못된 데이터가 입력이 되면 아무리 알고리즘이 좋고 퍼포먼스가 좋은 시스템이 있더라도 결국 잘못된 값을 출력할 수 밖에 없다” 라는 의미를 내포하고 있다. 그러나 통계쪽나 ML쪽을 하다보면 많은 사람들이 GIGO의 의미를 잘못 이해하고 있다는것을 볼 수 있다. 바로 Garbage In, Gospel […]

계속 읽기

검색 결과를 타겟으로 하는 해킹 사이트

이런 해킹 유형을 파악하기 위해서 몇가지 필요한 툴이 있다. 그리고 HTTP 프로토콜에 대한 약간의 지식이 있으면 훨씬 이해하기 편할 것이다.   1. Firefox 2. Live HTTP (Firefox add in) 3. Modyfy Headers (Firefox add in) 4. Web Developer (Firefox add in)   구글 검색 결과를 확인해 보자. "오리엔탈드림" 쿼리를 사용한 구글 결과  위 링크를 클릭하고 […]

계속 읽기

검색 로그를 검색에 다시 이용하기 – 구글 바로가기

검색 로그(Query Log)로 할 수 있는 것 내가 위 분의 블로그를 자주 찾는 이유는 국내 말고 외국의 대학의 석, 박사 연구원들은 뭘 연구할까 궁금해서이다. 올라오는 글을 보면 구글이나 야후에서 이미 하고 있는 일들을 주로 연구하는거 같다. 국내에서는 포털 및 학계의 기술적인 교류가 거의 없어서 기술적 그리고 서비스적 연구가 서로 다른것에 비하면 정말 부러운 환경이지 않을 […]

계속 읽기

Bias-Variance Tradeoff

머신런닝을 이용한 분류기를 만들때 가장 많이 나오는 유명한 개념중에 하나이다. 분류기를 만들어서 테스트 하는 과정을 거치며 많은 에러들이 나오게 된다. 이런 에러들을  MSE로 분석해보면 Learning Error = bias + variance 위와 같은 식으로 간단하게 정리된다. Bias는 학습된 분류기와 실제 값 사이의 제곱에러이다. 정확도하고 약간 비슷한 개념이다. 이 bias는 linear한 분류기보다 nonlinear한 분류기가 낮은 값으로 나온다. […]

계속 읽기

Disco 0.1 – 얼랭으로 만든 오픈소스 분산 컴퓨팅 프레임웍

8월 마소잡지에 Erlang으로 Map/Reduce 프레임웍을 만드는 예제로 만든적이 있었다. 이 글 이후에 외부 스크립트로 Python을 사용하는 포스팅을 쓴적이 있었다. 사실 위 글은 내가 만든 map/reduce 프레임웍에서 Python 외부 스크립트를 사용하기 위한 방법을 고안하기 위해 했던 작업의 일환이였다. 그러나 내가 생각했던 수준보다 더 많은 고민을 한 오픈소스 프로젝트가 얼마전에 공개되었다. 좀 촌스러운 프로젝트 이름인지 몰라도 Disco […]

계속 읽기

parallel_for와 Matrix 연산

TBB를 사용해서 Matrix연산 퍼포먼스를 측정해 봤다. Matrix Multiply를 해봤는데 그런대로 볼만한 성능향상이 있어서 그 내용에 대해서 올려본다.  Matrix 곱 연산은 N X N  두개의 행렬에 대해서 실행 했을때 O(n^3)이 나오는 복잡한 연산중에 하나이다. 게다가 매트릭스 곱은 행과 열의 관계에 대한 계산을 할때 빈번히 쓰여서 social network를 구현하기 위한 계산을 할때 자주쓰이는 재밋는 수식이다. 이 연산비교를 […]

계속 읽기

Intel Threading Building Blocks

최근 멀티코어 프로그래밍을 좀더 심화시켜 보기 위해 Intel Threading Building Blocks 라는 오라일리에서 나온 책을 보고 있다. 책을 구입한지는 꽤 되었지만 그동안 배경지식이 별로 없어서 덮어두고 있다가 최근 틈틈히 봐서 반 이상은 본거 같다. 이 책을 보면서 느끼는건 저자가 어렵게 쓴 책을 보면서 원망을 많이 했었던 것이 시간이 가면 갈수록 경외감으로 바뀌어 간다는 것이다. 하지만 […]

계속 읽기

YDN에서 Korea Hadoop Community 소개되다.

Hadoop Community meeting in the Yahoo Korea office 저번 Hadoop community 2회 모임때의 미팅이 YDN에 소개 되었다. 흐흐 ~~물론 이건 정진호 과장님이 힘써주신 덕분인데 소리소문없이 이렇게 소개글을 외국 개발자들 사이에선 좀 유명한 블로그(?)에 올리시다니…ㅋ 운영진의 한 사람으로서 기쁘기 그지 없지만 아래 댓글에 달린 ‘slide 공유해 달라는 말’이 있는 관계로 앞으로 발표자료는 영어로 만들어야 하지 않을까란 […]

계속 읽기

검색 기술 컨퍼런스에 다녀오다.

예상외로 상당히 흥미로운 이야기들이 많이 나왔었다. 게다가 예상외로 사람들이 많이 왔고 여기저기서 반가운 얼굴들을 많이 뵈올 수 있었다.   사실 세번째 트랙의 첫번째 강연인  "정보 추출 기술 동향과 추출 기법을 적용한 정보검색 효율향상" 강연이였다. 한양대 교수님이 Wrapper Learning 방법에 대한 소개와 그것을 응용한 구현을 설명해 주셨다. 책으로 공부할때는 막연하게 보이는 점이 없지않아 있었는데 직접 구현하신 […]

계속 읽기