compression ratio 측정 해프닝

2003년인가 누군가가 spam filter에서 compression ratio가 중요한 펙터로 작용한다는 글을 쓴적이 있었다. 이는 스팸문서의 경우 단순한 패턴의 연속표현일 경우가 있다는 가정이 깔려 있다. 그런 문자열의 반복성은 압축 알고리즘의 구현 원리에 따라서 압축률을 측정함으로 간접적으로 측정이 가능할 것이다. 물론 지금 이 feature를 spam 필터링에 쓴다는 이야기는 절대 아니고 다른 작업을 하고 있는데 이 compression ratio가 중요한 […]

계속 읽기

sigmoid 함수를 이용한 확률값 만들기

값을 0 ~ 1 사이의 값으로 사상시켜주는 함수이다. 이거 말고 비슷한 tanh 함수등이 있지만 이 함수가 가장 많이 알려져 있다.     sigmoid function   위 함수가 가장 많이 쓰이는 곳은 역시나 neural network (ANN) 알고리즘일 것이다.   사실 저 수식을 암기하는것보다 위 그래프를 보면서 어떨때 쓰면 좋을까 생각해보는것도 꽤 재밋다. 0 ~ 1 사이의 […]

계속 읽기

GIGO에 대한 두가지 관점

데이터를 핸들링 하는 사람들이 가장 많이 듣는 말중에 하나가 GIGO(Garbage In, Garbage Out)이라는 말이다. 이는 “잘못된 데이터가 입력이 되면 아무리 알고리즘이 좋고 퍼포먼스가 좋은 시스템이 있더라도 결국 잘못된 값을 출력할 수 밖에 없다” 라는 의미를 내포하고 있다. 그러나 통계쪽나 ML쪽을 하다보면 많은 사람들이 GIGO의 의미를 잘못 이해하고 있다는것을 볼 수 있다. 바로 Garbage In, Gospel […]

계속 읽기

내일은 예방접종날…

아들 예방접종을 하기 위해 휴가를 냈다. 전부터 한번 같이 가보고 싶었는데 이번에 기회를 봐서 한번 관심있게 지켜보고자 한다. 소문으로는 예방접종시 짧고 굵게 운다는 이야기를 들었는데 과연 그럴까 굉장히 기대가 된다. 그나저나 내일 예방접종인 줄도 모르고 웃고만 있군.. ㅋㅋ

계속 읽기

Head First 시리즈에 폭 빠지다.

살면서 내가 원하던 내가 궁금했던 부분이라고 생각한 곳을 시원스래 긁어주는 그런 책을 만나는건 그리 쉬운일이 아니다. 한장 한장 넘길수록 정말 놀라움을 금치 못하는 책이 있었으니 그 책이 바로 Head First 시리즈다. 이전에는 몰랐지만 Head First Statistics를 완독하고 너무 감동을 받아서 이 시리즈를 주목하고 있다. 이 책만큼 hypothesis test / confidence interval을 다양한 확률 분포를 대상으로 […]

계속 읽기

검색 결과를 타겟으로 하는 해킹 사이트

이런 해킹 유형을 파악하기 위해서 몇가지 필요한 툴이 있다. 그리고 HTTP 프로토콜에 대한 약간의 지식이 있으면 훨씬 이해하기 편할 것이다.   1. Firefox 2. Live HTTP (Firefox add in) 3. Modyfy Headers (Firefox add in) 4. Web Developer (Firefox add in)   구글 검색 결과를 확인해 보자. "오리엔탈드림" 쿼리를 사용한 구글 결과  위 링크를 클릭하고 […]

계속 읽기

어려운 책 관망하기

일단 그렇게나 배우고 싶었던 Machine Learning에 대해서 조금은 안다고 말할 수 있을거 같다. 이쪽 분야의 교과서라 할 수 있는 T.Mitchell의  Machine Learning 책을 하루에 단 두장밖에 이해하지 못했던 나였는데 이제는 이것보다 더 재미있는 책들을 보고 있으니 말이다. 이 시기에 학교의 도움이 굉장히 컸다. 이 분야를 공부하면서 이런걸 공부하는 사람은 도대체 괴물들이 아닐까 하는 생각까지 했었는데 […]

계속 읽기

검색 로그를 검색에 다시 이용하기 – 구글 바로가기

검색 로그(Query Log)로 할 수 있는 것 내가 위 분의 블로그를 자주 찾는 이유는 국내 말고 외국의 대학의 석, 박사 연구원들은 뭘 연구할까 궁금해서이다. 올라오는 글을 보면 구글이나 야후에서 이미 하고 있는 일들을 주로 연구하는거 같다. 국내에서는 포털 및 학계의 기술적인 교류가 거의 없어서 기술적 그리고 서비스적 연구가 서로 다른것에 비하면 정말 부러운 환경이지 않을 […]

계속 읽기

2008 한글 및 한국어 정보처리 학술대회

지난 금,토 서울대에서 2008 한글 및 한국어 정보처리 학술대회가 있었다. 개인적인 사정으로 아쉽지만 금요일만 참가했었다. 논문집을 보니 작년 나의 논문을 레퍼런스한 논문이 좀 있었다. ^^;아래 두 논문이 그 논문들이다. 동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가, 이현우(창원대), 한요섭, 김래현(한국과학기술연구원), 차정원(창원대) Topic signature와 n-gram을 이용한 댓글 분류 시스템, 배민영, 차정원(창원대) 첫번째 논문은 동시출현 […]

계속 읽기

통계책들…

올해 처음 봤던 책은 서점에서 직접 고른 앤더슨의 통계학이라는 책이였다. 한동안 이 책만 보면서 통계를 음미했던 시기가 있었다. 게다가 직접 엑셀로 돌려보면서 결과를 확인하는 작업을 직접할 수 있어서 실무에 적용하기 위해 상당한 참고가 되었던 책이였다. 사실 위 책의 내용이 너무 좋아서 살짝 숨기고 있었는데 최근 이것만큼 좋은 책들을 보는 관계로 올려봤다. 두번째 책은 전에도 소개했던 […]

계속 읽기