같은 의미의 영어와 한글을 어떻게 한 색인항목에 넣을 수 있을까?

교수님이 주신 “Concept Unification of Terms in Different Languages for IR“이라는 논문을 분석해서 논문 세미나를 했다. 이 논문의 내용은 무엇이냐 하면….ㅎㅎ “디지털”이라는 쿼리를 넣었을때 “Digital”, “디지털”, “디지틀” 이라는 단어가 포함되는 문서 모두가 나오게 하려면 어떻게 할 것인가? 라는것이다. 물론 외래어 뿐만 아니라 세계무역기구(WTO), 서울대(Seoul National University) 등의 약어나 복합어에 대한 Unification까지 생각하면 어떻게 알고리즘을 구현해야 […]

계속 읽기

논문 세미나 자료

“벡터 스페이스 모델을 위한 문서 정규화”라는 제목으로 논문 주제 선정 세미나를 했는데 이건 박사논문정도의 연구기간이 필요한 거라며 교수님에게 리젝트 당한 주제다. 루씬을 분석하다 문서길이 노말라이제이션에 문제가 있음을 제시한 article을 보고 힌트를 얻어서 나름 주제선정을 하고 발표를 했었는데. 쩝 ㅜㅜ 내일 논문 세미나 준비를 하다가 생각이 나서 올린다. XClpn9FazD.pdf

계속 읽기

이 책 살까 말까?

Google’s PageRank and Beyond 이 책 보신분? 수학이 나온다니 일반인을 위한 책은 아닌거 같고. 그렇다고 전문가 수준의 책인가? 5월달에 나온 책인데 별다른 서평도 없다. 궁금하군. 아 쉬~~~~ 그나저나 Building Search Applications with Lucene and Nutch책이 올해 10월에 나오기로 했는데 내년 3월로 연기가 되어 버렸다. 이런 낭패가… ㅜㅜ 참으로 기대를 많이한 책인데.. 쩝

계속 읽기

typos님의 블로그 검색엔진

typos님의 2천만건의 데이터를 색인한 결과물이 나왔다. 물론 Lucene 기반이지. 시범적으로 서버 두대로 색인하셨다는데 아직 테스트 버전이다. http://www.blogreader.co.kr 아직 가지고 계신 1억 3천만건의 블로그 데이터를 색인하지는 않았지만 조만간 뭔가 결과물들을 보여주시지 않을까 한다. 그런데 매일 한국어 분석기가 없다고 하시는데 할말이 없다. (현재 공적이든 사적이든 무지 바쁜 나날을 보네고 있다. 하긴 휴가 이후로 분석기 소스코드 손도 못데고 […]

계속 읽기

좋은 봇, 나쁜 봇

봇을 개발해봤고 개발하고 있는 개발자 입장에서 좋은 봇과 나쁜 봇에 대해 정의된 글이 있어서 소개해본다. 좋은 봇 robots.txt를 준수하는 로봇 굉장히 빠른 속도로 크롤링해서 사이트에 부담을 주지 않는 로봇 적당한 시간에 신선한 자료를 가져오는 로봇 특정한 사이트를 크롤링하는데 소요한 트래픽 자료를 리턴한다. 나쁜 봇 컨텐츠를 접근하기 위해 수단과 방법을 가리지 않는다. robots.txt를 지키지 않는 봇 […]

계속 읽기

Dev-C++ 코딩 화면 설정

요즘 또 Dev-C++을 깔았다. 그래서 전에 있었던 환경 설정 파일을 다시 쓰고 있는데 혼자쓰기 아까운 에디터 설정이라 이번에 한번 올려본다. [Editor] AutoIndent=1 InsertMode=1 TabToSpaces=1 SmartTabs=1 SmartUnindent=1 TrailBlank=0 GroupUndo=1 EHomeKey=0 PastEOF=0 PastEOL=0 DblClkLine=0 FindText=1 Scrollbars=1 HalfPageScroll=0 ScrollHint=1 SpecialChars=0 AppendNewline=1 AutoCloseBrace=0 TabSize=4 MarginVis=1 MarginSize=80 MarginColor=-16777194 InsertCaret=0 OverwriteCaret=0 InsDropFiles=0 GutterVis=1 GutterAuto=0 LineNumbers=0 LeadZero=0 FirstLineZero=0 Gutterfnt=1 GutterSize=32 UseSyntax=1 SyntaxExt=”c;cpp;h;hpp;cc;cxx;cp;hp;rh;” […]

계속 읽기

gp2x Telnet, samba, Ftp 연결 성공 그리고 ….

오늘 무슨 바람이 불었는지 이시간까지 Gp2x의 네트워킹 테스트를 완료했다. 물론 Telnet 연결은 12시 좀 넘어서 성공한거 같은데, 지금 이시간까지 Tiny C Compiler를 설치하고 테스트 한답시고 삽질을 하고 있었다. 전에 설치한 Python은 잘 구동이 되고 있다. 하지만 영 Python shell을 띄우는데도 수초의 시간이 걸리니 이건 그냥 테스트만으로 족해야 겠다. 이걸로 여기에 돌아가는 뭘 만든다는건 역시나 무리… […]

계속 읽기

메모리 체킹 툴 Valgrind

오늘 반나절 가까이 회의를 하면서 이래저래 본격적인 개발에 관한 이야기들이 오갔다. 그중에서도 오늘의 수확은 Valgrind라는 툴을 발견한 것이다. 같이 일하시는 과장님이 말씀하신건데 저녁먹고 바로 설치해보고 체킹까지 해봤다. 와~~~ 근데 이거 진짜 물건이다. 이 툴은 런타임에 실시간으로 메모리 체크를 해주는 유틸이다. 가장 중요한 기능을 바로 malloc으로 잡아준 메모리를 정확하게 free해주기 위함이다. Valgrind가 지원하는 플렛폼은 아래와 같다. […]

계속 읽기

C언어 개발

솔직히 C언어로 프로젝트다운 프로젝트를 거의 처음 해보지만(혼자 만들었던 경험 빼면) 하나하나 만드는것에 대한 기쁨이 많지만…. 그런 기쁨을 누리기에는 시간이 너무 없다는거… 그래두 결론은 재밋다. 실제 프로젝트를 해보니 아래 책이 무지 도움이 많이된다. (쉽게 배우는)C 프로그래밍 테크닉

계속 읽기