요즘 때 늦은 스티브 잡스 동영상이 인기…
올만에 이곳에 일상쪽 포스팅은 하는 이유는 예전에 스티브 잡스 연설에 대한 포스팅을 이곳에 했기 때문이다. 이 연설문을 읽고 그때는 동영상을 못구해서 mp3로 ipod에 넣고 듣고 다녔다. 지금도 이 연설문의 Full 버전이 나의 ipod에 있고 가끔 땡길 때마다 잘 듣는다. 그런데 요즘 이 연설의 동영상에 자막을 입힌 영상이 여러 포탈 동영상에 올라가면서 다시 인기를 얻고 있다. […]
계속 읽기당신의 나의 뜨거운 감자!
올만에 이곳에 일상쪽 포스팅은 하는 이유는 예전에 스티브 잡스 연설에 대한 포스팅을 이곳에 했기 때문이다. 이 연설문을 읽고 그때는 동영상을 못구해서 mp3로 ipod에 넣고 듣고 다녔다. 지금도 이 연설문의 Full 버전이 나의 ipod에 있고 가끔 땡길 때마다 잘 듣는다. 그런데 요즘 이 연설의 동영상에 자막을 입힌 영상이 여러 포탈 동영상에 올라가면서 다시 인기를 얻고 있다. […]
계속 읽기일반적으로 Valgrind는 메모리 릭 판단용으로 많이 쓴다. 주로 “valgrind –leak-check=full args” 형식으로 말이다. 그래서 릭이 어느정도 났는지에 따라서 쭉 따라가면서 릭을 잡아나가는데…. 내내 Error Summary부분이 신경을 쓰지 않고 싶었다. 하지만 이번에 알았다. 그 Error Summary를 무시하지 말자고. 방금전에 memory를 잘못 잡은 상태에서 strcat 함수를 써서 데이터 복사를 해나갔는데 그 부분에서 절대 에러가 나지 않고 다른 […]
계속 읽기Google PageRank and Beyond라는 책을 구입했다. 물론 conv2님과 서로 지르기 한 다음에 내가 하루 늦게 받았다. (아무래도 conv2님이 선수를 치신거 같다.ㅡㅡ;) 그래서 이 책의 서평은 conv2님에게 뺏겼지만 일단 한번 줄절대 보겠다. 따끈한 사진이다. 일단 페이지 랭크에 개인적인 관심은 별로 없었는데, 예전에 첫눈의 서울대학교 세미나때 강의 자료를 요청해서 보고 싶었는데 바로 거절당하는 바람에 구글의 페이지 랭크를 […]
계속 읽기오랫동안 끌어왔던 한국어 사전 인터페이스를 완료 했다. 동적으로 커넥션 관리(품사별로 음절 길이에 따른)를 하게끔 제작을 했고 말이 많았던 Hash, Trie모듈을 이용한 메모리 로딩은 잠시 미루기로 했다. Eclipse로 그려본 사전쪽 클래스 구조다. (품사 음절별 사전 객체는 무조건 하나만 생성된다. 그리고 그 사전객체의 커넥션은 접속을 끊기전에는 계속 연결시켜 놓았다.(색인시 종종 쓰기보다는 매우 자주 사용되기 때문이다.)) 그리고 제공 […]
계속 읽기교수님이 주신 “Concept Unification of Terms in Different Languages for IR“이라는 논문을 분석해서 논문 세미나를 했다. 이 논문의 내용은 무엇이냐 하면….ㅎㅎ “디지털”이라는 쿼리를 넣었을때 “Digital”, “디지털”, “디지틀” 이라는 단어가 포함되는 문서 모두가 나오게 하려면 어떻게 할 것인가? 라는것이다. 물론 외래어 뿐만 아니라 세계무역기구(WTO), 서울대(Seoul National University) 등의 약어나 복합어에 대한 Unification까지 생각하면 어떻게 알고리즘을 구현해야 […]
계속 읽기Google’s PageRank and Beyond 이 책 보신분? 수학이 나온다니 일반인을 위한 책은 아닌거 같고. 그렇다고 전문가 수준의 책인가? 5월달에 나온 책인데 별다른 서평도 없다. 궁금하군. 아 쉬~~~~ 그나저나 Building Search Applications with Lucene and Nutch책이 올해 10월에 나오기로 했는데 내년 3월로 연기가 되어 버렸다. 이런 낭패가… ㅜㅜ 참으로 기대를 많이한 책인데.. 쩝
계속 읽기typos님의 2천만건의 데이터를 색인한 결과물이 나왔다. 물론 Lucene 기반이지. 시범적으로 서버 두대로 색인하셨다는데 아직 테스트 버전이다. http://www.blogreader.co.kr 아직 가지고 계신 1억 3천만건의 블로그 데이터를 색인하지는 않았지만 조만간 뭔가 결과물들을 보여주시지 않을까 한다. 그런데 매일 한국어 분석기가 없다고 하시는데 할말이 없다. (현재 공적이든 사적이든 무지 바쁜 나날을 보네고 있다. 하긴 휴가 이후로 분석기 소스코드 손도 못데고 […]
계속 읽기봇을 개발해봤고 개발하고 있는 개발자 입장에서 좋은 봇과 나쁜 봇에 대해 정의된 글이 있어서 소개해본다. 좋은 봇 robots.txt를 준수하는 로봇 굉장히 빠른 속도로 크롤링해서 사이트에 부담을 주지 않는 로봇 적당한 시간에 신선한 자료를 가져오는 로봇 특정한 사이트를 크롤링하는데 소요한 트래픽 자료를 리턴한다. 나쁜 봇 컨텐츠를 접근하기 위해 수단과 방법을 가리지 않는다. robots.txt를 지키지 않는 봇 […]
계속 읽기요즘 또 Dev-C++을 깔았다. 그래서 전에 있었던 환경 설정 파일을 다시 쓰고 있는데 혼자쓰기 아까운 에디터 설정이라 이번에 한번 올려본다. [Editor] AutoIndent=1 InsertMode=1 TabToSpaces=1 SmartTabs=1 SmartUnindent=1 TrailBlank=0 GroupUndo=1 EHomeKey=0 PastEOF=0 PastEOL=0 DblClkLine=0 FindText=1 Scrollbars=1 HalfPageScroll=0 ScrollHint=1 SpecialChars=0 AppendNewline=1 AutoCloseBrace=0 TabSize=4 MarginVis=1 MarginSize=80 MarginColor=-16777194 InsertCaret=0 OverwriteCaret=0 InsDropFiles=0 GutterVis=1 GutterAuto=0 LineNumbers=0 LeadZero=0 FirstLineZero=0 Gutterfnt=1 GutterSize=32 UseSyntax=1 SyntaxExt=”c;cpp;h;hpp;cc;cxx;cp;hp;rh;” […]
계속 읽기