분류 문제에서 앙상블 방법.

일전에 Decision Tree나 SVM, ANN 등등 많은 분류기 모델을 공부했는데, 이것들에서 파생되는 많은 분류기를 또 다시 공부해야 하나 하는 생각을 한적이 있었다. 하지만 이것은 기우에 불과했고, 많은 새로운 분류 방법들이 훈련집합이나 입력특징, 클래스 레이블을 조작하면서 얻어지는 앙상블 방법들중에 하나였음을 알게 되었다. (어제 데이터 마이닝 수업시간의 주제였다.) 일반적으로 단일의 분류기의 모델만을 빌드해서 실제 실무에서 사용하지는 않는다. […]

계속 읽기

SVM을 이용한 블로그 와 스팸 블로그 인식

구글에서 학술 정보 검색 서비스가 나왔다고 해서 “Blog Spam”으로 검색해 봤다. 첫번째 결과는 이미 오래전에 본 자료였고, 두번쩨 자료부터 보고 있다. 주말에 집에 내려갔다 오면서 차속에서 봤는데 보면서 꽤 재미 있었다. 논문 제목이… SVMs for the Blogosphere: Blog Identification and Splog Detection SVM을 이용해서 블로그와 여타 미디어 사이트를 구분하는 실험과 그리고 Spam Blog를 분류하는 실험을 […]

계속 읽기

학위 논문 심사 끝

두명의 교수님이 참관하에 논문 심사를 했다. power point 2007로 문서작업을 하는 바람에 발표하는 컴퓨터에서 포멧이 안맞아 조금 당황하긴 했지만, pdf파일로 하나 만들어 둔것이 있어서 그걸 가지고 무사히 발표를 마쳤다. 두분의 교수님이라고 해봐야 지난 학기때 텀 프로젝트로 논문 주제를 살펴봐 주셨던 ML(Machine Learning)전문 교수님 한분과 지도교수님 한분이셨다.다행히 두분 모두 내 논문 주제에 대해서 잘 알고 계셔서 […]

계속 읽기

생각하보니 김명호 박사님의 말이 맞는거 같네요.

소프트웨어 개발자의 길 아니다 싶으면 포기하라. 주말마다 하루정도는 잡아서 공부하러 도서관에 가서 컴퓨터 공학(요즘엔 데이터 마이닝) 관련 책보고, 또 코딩해보고. 일로서 하는건 시간이 정해져 있는 관계로 간단한 스크립트 랭귀지로 뚝딱해결하는게 한동한 나만의 유행이여서 C/C++등의 저수준 언어로 해보는 기회가 없어지는 관계로 요즘엔 스크립트 언어 쓰는 속도정도로 C/C++ 코딩 속도를 늘려보려 노력하고 있다.  그래도 요즘 손맛은 C++이 […]

계속 읽기

개발자가 오래 개발을 한다고 저절로 레벨이 올라가거나 아키텍트로 성장하는건 아니다.

오늘 사내 이메일로 서명덕 기자님의 블로그 포스트를 소개받아 읽어 보았다. 바로 MS에 계시는 김명호 박사님의 DevDay 기조 연설이였는데, 사실 김명호 박사님의 존함은 블로그 포스트를 통해 처음 들어봤지만 위 제목에 달린 말씀 하나만으로 큰 감동을 받았다. 기자님의 블로그에 있는 박사님의 Key phrase를  내용을 살짝 빌려와봤다. – 10년 후라는 주제, 지난 몇 년간 인기리 판매된 책 제목에서 […]

계속 읽기

D language에 대한 최근 정보들

D language의 CHM파일이 공개가 되었다는 이야기, 이제는 일부러 공식 사이트에 가지 않아도 편하게 파일 하나 열어놓고 작업하기 편하게 되었다. 그리고 Ubuntu 패키지에 gdc가 포함되었다는 이야기 등이다. 따라서 아래와 같이 타이핑 하면 D compiler가 설치 된다. sudo apt-get install gdc 개인적으로는 D언어를 사용하는걸 자제하고자 하는 입장님데, 도저히 효율적인 디버깅 방법을 모르겠다는게 이유이다. (전에 만든 프로그램이 만라인이 […]

계속 읽기

개발자 면접에 대한 책

어제 저녁에 여자친구를 기다리다가 짬을 내서 서점에 가 책을 한권 샀다. 요즘 편하게 읽을만한 컴퓨터 관련 서적이 없어서 찾고 있던 찰라였는데, 전에 한번보고 관심을 가지고 있었던 책을 구입해서 어제 하루만에 100페이지 정도를 읽었다. Programming Interviews Exposed: Secrets to Landing Your Next Job (2/E)라는 제목으로 나온 원서의 번역본인데, 가볍게 읽을만한 책인거 같다.개인적인 생각으로는 비슷한 시기에 나온 […]

계속 읽기

야후에서 CMU에 Hadoop 클러스터 제공하기로…

오늘 아침에 팀장님에게 이 좋은 소식을 들었고, 다시 YDN에서 눈으로 확인을 했다. 이름하여 M45라는 컴퓨팅 환경을 제공하는 프로그램을 학술 목적에 쓸수 있게 개방을 한다는 것이다. 내용인 즉슨, 학술연구 목적으로 야후의 Hadoop 클러스터에 대한 컴퓨팅 환경 지원을 약속했다는것인데, 대용량 데이터에 대한 컴퓨팅 리소스가 많이 들어가는 웹 마이닝분야나 자연언어 처리, 기계번역, 컴퓨터 그래픽스 분야에서 이런 환경이 쓰일수 […]

계속 읽기

Hbase 세미나 후기

1년전 논문으로 맛만 보았던 google의 Bigtable을 다시 오늘 맛보았다.그 구현체는 Hbase라는 놈을 통해서 였는데, NHN에 다니시는 김형준님이 아주 맛깔나게 세미나를 해주셨다. 사실 개인적으로는 Hadoop기반으로 Hbase가 돌아간다고 했는데 솔직히 두개가 어떻게 맞붙어서 돌아갈까 하는 의문을 가지고 참석을 했다. 그러다가 이날 1시간이 넘는 세미나를 하고 나서 정확히 어떻게 돌아가는지 알게 되었다. 역시나 Hadoop는 분산 프로세싱에만 관여를 하는것이였고, […]

계속 읽기

데이터 마이닝 청강하고 있답니다.

이번이 두번째 Data Mining 강의인데 이걸 강의하시는 교수님 실력이 정~~~말 좋으시다.어려운 개념을 이렇게나 쉽게 설명을 하시니 말이다. 난 이런 분들을 사랑한다. ㅎㅎㅎ 예전에 그냥 ML(Machine Learning)과목을 빡시게 수강했던 결과물들이 이번 Data Mining 강의에 의해서 다시한번 확인되는 느낌을 받는다. 특히나 Data Mining 과목 특성상 실무에 적용되는 것들을 주로 설명하기 때문에 ML에 대해서 얕게 설명을 하는게 차라리 […]

계속 읽기