고감자 – 페이지 61 – from __future_

아버지가 물려주신 가장 큰 자산

작성일자 2007년 12월 06일 고감자님이 작성

나에겐 아버지가 물려주신 가장 큰 자산이 있다. 아마도 이 자산을 기반으로 지금껏 성장해 오지 않았을까 하는 생각이 들 정도로 말이다. 바로 독서하는 습관이다. 내 어릴적 기억으로는 아버지가 책 읽는 모습이 참 기억에 많이 남아있다. 방학때 그런 모습을 자주 볼 수 있었는데, 예전에 숙직이라는게 있는 날이면 아침에 아버지가 회사에서 오셔서 아침식사가 나올때까지 책을 보시는 모습이 눈에 […]

계속 읽기

네이버의 Query 마이닝

작성일자 2007년 12월 05일 고감자님이 작성

컨텐츠검색 스토리(2) – 컨텐츠검색은 어떻게 만들어질까 라는 글을 보다가 쿼리 자동완성에 마이닝 기술과 클러스터링 기술이 들어 갔다고 해서 생각 좀 해봤다. 문제의 그림…. 요걸 보니까.. 딱 생각나는 방법이 있다. 쿼리의 유형을 빠르게 분석하기 위해서는 형태소 분석의 방법을 쓰는게 좋을까?개인적으로는 n-gram방법이 효율적이라고 생각한다. 특히나 다국어나 인터넷 신조어 처리를 해야 한다면 말이다.위의 결과를 보자면 “꽃보다남자”라는게 클러스터링 되어서 […]

계속 읽기

문서집합에서 문서 상호 빈도수가 높은 feature 셋을 뽑아내는 알고리즘

작성일자 2007년 12월 05일 고감자님이 작성

요즘 Text Mining Handbook을 보고 있는데, 예전에 보지 못한 알고리즘이 나와서 한번 적어본다. 처음 보는 알고리즘인데, 이미 나온지 꽤 된 많은곳에 쓰이는 알고리즘 이란다. ^^; 특정 카테고리의 문서집합에서 빈도수가 높은 컨셉을 뽑아내는 알고리즘으로 support와 Confidence라는 개념으로 이루어져 있다. support는 주어진 룰을 포함하는 문서의 빈도수를 의미하고, confidence는 그 룰이 참이라고 생각할 수 있는 휴리스틱한 threshold를 의미한다. […]

계속 읽기

마지막(?) 장학금

작성일자 2007년 11월 29일 고감자님이 작성

기다리고 기다리던 장학금 소식이다. 이로서 장학금을 4학기 풀로 받았다. 이렇게 4학기 내내 장학금을 주신 교수님께 먼저 감사드린다. 이번학기 성적에 대한 장학금은 아니고 저번학기 성적에 대한 장학금인데, 이제야 결과가 나왔다. 저번학기때 이직문제, 논문이라든지 빡신 수업때문에 많이 힘들었던 학기였는데 다행히 성적도 잘 나오고 이렇게 장학금도 받게 되었다. 이게 내가 내 인생에서 탈 수 있는 마지막 장학금이 될지 […]

계속 읽기

분류 문제에서 앙상블 방법.

작성일자 2007년 11월 27일 고감자님이 작성

일전에 Decision Tree나 SVM, ANN 등등 많은 분류기 모델을 공부했는데, 이것들에서 파생되는 많은 분류기를 또 다시 공부해야 하나 하는 생각을 한적이 있었다. 하지만 이것은 기우에 불과했고, 많은 새로운 분류 방법들이 훈련집합이나 입력특징, 클래스 레이블을 조작하면서 얻어지는 앙상블 방법들중에 하나였음을 알게 되었다. (어제 데이터 마이닝 수업시간의 주제였다.) 일반적으로 단일의 분류기의 모델만을 빌드해서 실제 실무에서 사용하지는 않는다. […]

계속 읽기

SVM을 이용한 블로그 와 스팸 블로그 인식

작성일자 2007년 11월 25일 고감자님이 작성

구글에서 학술 정보 검색 서비스가 나왔다고 해서 “Blog Spam”으로 검색해 봤다. 첫번째 결과는 이미 오래전에 본 자료였고, 두번쩨 자료부터 보고 있다. 주말에 집에 내려갔다 오면서 차속에서 봤는데 보면서 꽤 재미 있었다. 논문 제목이… SVMs for the Blogosphere: Blog Identification and Splog Detection SVM을 이용해서 블로그와 여타 미디어 사이트를 구분하는 실험과 그리고 Spam Blog를 분류하는 실험을 […]

계속 읽기

학위 논문 심사 끝

작성일자 2007년 11월 21일 고감자님이 작성

두명의 교수님이 참관하에 논문 심사를 했다. power point 2007로 문서작업을 하는 바람에 발표하는 컴퓨터에서 포멧이 안맞아 조금 당황하긴 했지만, pdf파일로 하나 만들어 둔것이 있어서 그걸 가지고 무사히 발표를 마쳤다. 두분의 교수님이라고 해봐야 지난 학기때 텀 프로젝트로 논문 주제를 살펴봐 주셨던 ML(Machine Learning)전문 교수님 한분과 지도교수님 한분이셨다.다행히 두분 모두 내 논문 주제에 대해서 잘 알고 계셔서 […]

계속 읽기

생각하보니 김명호 박사님의 말이 맞는거 같네요.

작성일자 2007년 11월 20일 고감자님이 작성

소프트웨어 개발자의 길 아니다 싶으면 포기하라. 주말마다 하루정도는 잡아서 공부하러 도서관에 가서 컴퓨터 공학(요즘엔 데이터 마이닝) 관련 책보고, 또 코딩해보고. 일로서 하는건 시간이 정해져 있는 관계로 간단한 스크립트 랭귀지로 뚝딱해결하는게 한동한 나만의 유행이여서 C/C++등의 저수준 언어로 해보는 기회가 없어지는 관계로 요즘엔 스크립트 언어 쓰는 속도정도로 C/C++ 코딩 속도를 늘려보려 노력하고 있다. 그래도 요즘 손맛은 C++이 […]

계속 읽기

개발자가 오래 개발을 한다고 저절로 레벨이 올라가거나 아키텍트로 성장하는건 아니다.

작성일자 2007년 11월 20일 고감자님이 작성

오늘 사내 이메일로 서명덕 기자님의 블로그 포스트를 소개받아 읽어 보았다. 바로 MS에 계시는 김명호 박사님의 DevDay 기조 연설이였는데, 사실 김명호 박사님의 존함은 블로그 포스트를 통해 처음 들어봤지만 위 제목에 달린 말씀 하나만으로 큰 감동을 받았다. 기자님의 블로그에 있는 박사님의 Key phrase를 내용을 살짝 빌려와봤다. – 10년 후라는 주제, 지난 몇 년간 인기리 판매된 책 제목에서 […]

계속 읽기

D language에 대한 최근 정보들

작성일자 2007년 11월 19일 고감자님이 작성

D language의 CHM파일이 공개가 되었다는 이야기, 이제는 일부러 공식 사이트에 가지 않아도 편하게 파일 하나 열어놓고 작업하기 편하게 되었다. 그리고 Ubuntu 패키지에 gdc가 포함되었다는 이야기 등이다. 따라서 아래와 같이 타이핑 하면 D compiler가 설치 된다. sudo apt-get install gdc 개인적으로는 D언어를 사용하는걸 자제하고자 하는 입장님데, 도저히 효율적인 디버깅 방법을 모르겠다는게 이유이다. (전에 만든 프로그램이 만라인이 […]

계속 읽기