Soundex 기법 정리하면서…

예전에 spell correction을 하기위해 edit distance를 사용할 수 있다는 이야기를 했다. 물론 포탈이나 여러곳을 가보니 다 이런 방식으로 거의 다 적용이 되어 있더라. 사실 그 당시는 잘 몰랐기도 했거니와 내 나름대로 고민하고 생각해서 올려본것인데 이미 다른 사람들도 같은 생각을 하고 있더라. 이번의 기법은 이 역시 robust한 검색 시스템을 만들기 위해 soundex를 사용하면 어떨까 하고 올려본다. […]

계속 읽기

D language community에서 어떤 고수가 쓴 글

어떤 D Language user가 D community에서 D language로 밥벌어먹을 수 있느냐? 하는 질문에 어느 고수 개발자가 답글을 달았다. 읽어보는데 구구절절 개발자의 특정 언어 선호에 대한 따끔한 질책을 느낄 수 있었다. …..Don’t become a D programmer.  Don’t become a C++ programmer.  Don’t become a C# or a Java programmer.  You really don’t want to become a […]

계속 읽기

comment spam server 발표

오늘 comment spam server 제작발표를 했다. 이번 학기 내내 심지어 미국에 출장가서까지 호텔서 코딩하게 만든 spam server여서 그런지,  신나게 발표했다. 게다가 시연까지 성공적이였다. 정확하게 스팸 comment가 날라오는 상황을 재현하려고 임시적으로 client도 구현해서 테스트 했다. 이거 vmware player에서 debian linux를 띄워서 테스트를 했는데, 로컬 리눅스 머신에서 직접 돌릴때보다 2배정도의 학습시간이 소요되는거 같았다. 구형 노트북이라서 그러려니 했지만 […]

계속 읽기

search engineer로서 comment spam에 관심을 가지는 이유는…

계속 검색엔진 포스팅만 하다가 뜬금없이 comment spam에 관심을 가지는 이유가 있다. 물론 spam문제가 기본적으로 분류의 문제기도 해서 전혀 검색과 다른 분야는 아니라고 생각한다. 그렇지만 내가 spam에 관심을 가지는 이유는 그것도 comment spam에 관심을 가지는 이유는 웹검색 랭킹에 이것들이 영향을 미치기 때문이다. 개인적으로 내 포스트를 복사해서 여러곳에 올리는것도 전혀 좋아하지 않는다, 왜냐면 그것은 검색엔지니어에게 중복처리에 관련된 […]

계속 읽기

어느 나무꾼의 이야기

요즘 논어를 다시 보고 있다. 논어라는 책은 이것을 해석하는 역자와 시대에 따라서 다양한 의미를 가지기 때문에 논어을 전에 읽었음에도 불구하고 다른 책을 구입해서 보고 있다. 여기서 이런 이야기가 나온다. 子曰 不患無位오 患所以立하며 不患莫己知오 求爲可知也니라.불환무위 환소이립 불환막기지 구위가지야 벼슬자리가 없음을 걱정하지 말고 자기의 자격을 근심하며 나를 알아주지 않음을 걱정하지 말고 알려질 만 한일을 하고자 노력하라. 진정한 […]

계속 읽기

endian 변환 모듈

주말에 서버를 개발하다가 아래와 같은 메서드가 없어서 고민을 하다가 만들어 버렸다. uint32_t htonl(uint32_t hostlong); uint32_t ntohl(uint32_t netlong); D language에서는 위와 같은 메서드를 찾아볼수 없고, 유저 게시판에서도 못찾아서 만들어 버렸는데, 꽤 쓸만하다. 네트워크상에서는 Big-endian을 쓰니 LittleEndian에서만 문제가 생기더라. 그래서 아래와 같은 모듈로 두 메서드를 대체해 버렸다. [CODE c]import std.system; uint htonl(uint hostlong){    ubyte[4] retbyte;    […]

계속 읽기

D 2.0이 나왔나?

D language 2.0에 대한 소식이 들려오기 시작한다. 1.0 정식 버전이 올해 출범하고 얼마전에 1.015 버전에 대한 발표를 했는데 1.016버전에 대한 발표를 하면서 2.0버전에 대한 이야기를 하고 있다. (2.0에 대한 링크가 있었구나.) char[]의 alias로 string형을 지원한다는 이야기를 하고 있고, 여러 wide char를 지원하는 string 형을 또한 제공하고 있다. 현재로서는 단순한 alias 그 이상도 그 이하도 아닌거 […]

계속 읽기

출장가서 본것들 정리

샌프란시스코 출장 사진을 올려본다. 그닥 뭐 대단한 사진은 없고, 놀러간것도 아니니 사진이 별루 없을수 밖에… 재밋는 사진 많지만 일단 이것만 올려본다. 여권과 비행기표 PIER39 Pier39근처서 먹은 킹크랩 사진찍어 주는 강아지 아저씨 금문교 앞에서 러시안 힐 오버추어 정박사님이랑 간 스시롤 집에서 본 괴상한 음식소주잔에 간장넣고 메추리얼 까서 넣은 다음에 거기에 굴이 들어갔다고 생각하면 된다. ㅜㅜ 정박사님이랑 […]

계속 읽기

대학원 마지막 시험을 마치다.

대학원에서 마지막으로 추정되는 시험을 마치고 집에 왔다. 아마도 내 인생 대학원 석사과정에서 더이상의 시험은 없을거 같다. 대학원에서 처음이자 마지막으로 시험볼때 공학용 계산기를 써봤다. 아마도 학부 이후로 처음 공학용 계산기를 사용한거 같다. 공학용 계산기 메모리를 보니 계산기 내부에 학부시절에 짜본 프로그램들 이 들어있더군.. 쩝… 이번학기가 아마도 가장 힘들게 다닌 학기가 아닌가 한다. 학교 과목이 빡셨다는것이 아니라, […]

계속 읽기

스팸 필터 중간 결과

블로그나 게시판의 덧글의 스팸성을 판단하는 스팸 필터를 개발하고 있다. 물론 개인적으로 개발하고 있고, 이것을 이용해서 이번 Machine Learning 수업의 프로젝트 자료로 제출을 했고, 계속 여러 펙터를 바꾸고 다른 알고리즘을 집어넣으면서 테스트 하고 있다. 개발 환경은  OS : Linux Language : D Languagelibrary : iconv, ham(형태소 분석기) 쓴 알고리즘은 2만건의 사람이 분류한 덧글 training set을 사용했고, […]

계속 읽기