search engineer로서 comment spam에 관심을 가지는 이유는…

계속 검색엔진 포스팅만 하다가 뜬금없이 comment spam에 관심을 가지는 이유가 있다. 물론 spam문제가 기본적으로 분류의 문제기도 해서 전혀 검색과 다른 분야는 아니라고 생각한다. 그렇지만 내가 spam에 관심을 가지는 이유는 그것도 comment spam에 관심을 가지는 이유는 웹검색 랭킹에 이것들이 영향을 미치기 때문이다. 개인적으로 내 포스트를 복사해서 여러곳에 올리는것도 전혀 좋아하지 않는다, 왜냐면 그것은 검색엔지니어에게 중복처리에 관련된 […]

계속 읽기

어느 나무꾼의 이야기

요즘 논어를 다시 보고 있다. 논어라는 책은 이것을 해석하는 역자와 시대에 따라서 다양한 의미를 가지기 때문에 논어을 전에 읽었음에도 불구하고 다른 책을 구입해서 보고 있다. 여기서 이런 이야기가 나온다. 子曰 不患無位오 患所以立하며 不患莫己知오 求爲可知也니라.불환무위 환소이립 불환막기지 구위가지야 벼슬자리가 없음을 걱정하지 말고 자기의 자격을 근심하며 나를 알아주지 않음을 걱정하지 말고 알려질 만 한일을 하고자 노력하라. 진정한 […]

계속 읽기

endian 변환 모듈

주말에 서버를 개발하다가 아래와 같은 메서드가 없어서 고민을 하다가 만들어 버렸다. uint32_t htonl(uint32_t hostlong); uint32_t ntohl(uint32_t netlong); D language에서는 위와 같은 메서드를 찾아볼수 없고, 유저 게시판에서도 못찾아서 만들어 버렸는데, 꽤 쓸만하다. 네트워크상에서는 Big-endian을 쓰니 LittleEndian에서만 문제가 생기더라. 그래서 아래와 같은 모듈로 두 메서드를 대체해 버렸다. [CODE c]import std.system; uint htonl(uint hostlong){    ubyte[4] retbyte;    […]

계속 읽기

D 2.0이 나왔나?

D language 2.0에 대한 소식이 들려오기 시작한다. 1.0 정식 버전이 올해 출범하고 얼마전에 1.015 버전에 대한 발표를 했는데 1.016버전에 대한 발표를 하면서 2.0버전에 대한 이야기를 하고 있다. (2.0에 대한 링크가 있었구나.) char[]의 alias로 string형을 지원한다는 이야기를 하고 있고, 여러 wide char를 지원하는 string 형을 또한 제공하고 있다. 현재로서는 단순한 alias 그 이상도 그 이하도 아닌거 […]

계속 읽기

출장가서 본것들 정리

샌프란시스코 출장 사진을 올려본다. 그닥 뭐 대단한 사진은 없고, 놀러간것도 아니니 사진이 별루 없을수 밖에… 재밋는 사진 많지만 일단 이것만 올려본다. 여권과 비행기표 PIER39 Pier39근처서 먹은 킹크랩 사진찍어 주는 강아지 아저씨 금문교 앞에서 러시안 힐 오버추어 정박사님이랑 간 스시롤 집에서 본 괴상한 음식소주잔에 간장넣고 메추리얼 까서 넣은 다음에 거기에 굴이 들어갔다고 생각하면 된다. ㅜㅜ 정박사님이랑 […]

계속 읽기

대학원 마지막 시험을 마치다.

대학원에서 마지막으로 추정되는 시험을 마치고 집에 왔다. 아마도 내 인생 대학원 석사과정에서 더이상의 시험은 없을거 같다. 대학원에서 처음이자 마지막으로 시험볼때 공학용 계산기를 써봤다. 아마도 학부 이후로 처음 공학용 계산기를 사용한거 같다. 공학용 계산기 메모리를 보니 계산기 내부에 학부시절에 짜본 프로그램들 이 들어있더군.. 쩝… 이번학기가 아마도 가장 힘들게 다닌 학기가 아닌가 한다. 학교 과목이 빡셨다는것이 아니라, […]

계속 읽기

스팸 필터 중간 결과

블로그나 게시판의 덧글의 스팸성을 판단하는 스팸 필터를 개발하고 있다. 물론 개인적으로 개발하고 있고, 이것을 이용해서 이번 Machine Learning 수업의 프로젝트 자료로 제출을 했고, 계속 여러 펙터를 바꾸고 다른 알고리즘을 집어넣으면서 테스트 하고 있다. 개발 환경은  OS : Linux Language : D Languagelibrary : iconv, ham(형태소 분석기) 쓴 알고리즘은 2만건의 사람이 분류한 덧글 training set을 사용했고, […]

계속 읽기

야후 본사 출장중….

현재 야후 본사[footnote]미국 실리콘벨리 미션 칼리지(Mission College)[/footnote] 출장중에 있다. 뭐 아시는분들은 다 아시는것이겠지만…다만 운전을 못해서 돌아다니지는 못하지만, 여러 지인들 덕분에 그나마 외국에 온 구색은 내고 있는 중이다. 특히나 오버추어 정박사님 덕분에 맛난거 많이 구경하고(?) 다니고 있다.(박사님 정말 감사합니다. ^^) 여기 와서 느끼는것 딱 세가지다. 1. 운전을 다시 해야겠다.2. 회화 위주의 영어학습 습관을 들여야겠다.3. 앞으로 검색 […]

계속 읽기

D Language 인코딩 변환하기 위해.

토요일부터 D Language의 인코딩 변화를 위해서 무엇을 쓸까 고민하다가, 결국 iconv모듈로 가게 되었다. 실제적으로 기본 라이브러리인 phobos에서 인코딩 변환을 utf 인코딩간만 지원하기 때문에 나처럼 한글 형태소 분석기를 utf-8기반으로 돌려야 하는 사람에게는 인코딩 변환이 필수이다. 그런데, iconv모듈을 엊을라면 뭘 어떻게 해야할까? 언어 자체적으로 지원하는 다이내믹 라이브러리 로딩 방법을 써서 함수 포인터를 연결해 주면 될것이다. 뭐 몇시간 […]

계속 읽기

정신없는 요즘

방금 중간 레포트를 제출 했다. ㅎㅎ 베이지언 스팸 필터를 구현하고 있는데, 이것도 D Language로 구현하고 있다. 물론 기존에 구현하고 있던 C 기반의 필터도 근근히 개발하고 있었는데, D Language가 더 재밋어서 마구 쓰고 있다. 어제까지는 신경망 알고리즘(Backpropagation) 구현하고 레포트 제출에다가 시험까지 보구, 오늘은 베이지언 방법을 이용한 스팸 필터의 레포팅을 하고 설계에 대해서 제출했다. 신경망 알고리즘이 피부로 […]

계속 읽기