웹검색

웹 검색에서는 세가지 종류의 쿼리가 있다고 분류한다. Informational queries – 말 그대로 특정 정보를 다루는 다양한 토픽을 요구하는 쿼리를 의미한다. “이효리” 쿼리의 경우 상당히 많은 양의 다양한 정보 문서가 나올 것이다. 게다가 경우에 따라서 결과에서 최신성을 중요시 하기도 할 것이다. Navigational queries – “삼성전자”라는 쿼리에 삼성전자 홈페이지가 연결이 되는게 대부분 맞을 것이다. 대부분 정답이 거의 […]

계속 읽기

데이터마이닝 수사기법을 소재로한 미드 Numbers

원래 미드를 잘 안보는데 Numbers라는 미드가 데이터마이닝 기법으로 수사를 하는 그런 드라마라는 이야기를 듣고 요즘 몸 좀 쉬고있는 동안이라 보게 되었다. 사실 이곳에 나오는 데이터를 기반으로 하는 수사기법도 수사기법이지만 찰스라는 주인공이 하는 이야기들과 또 그와 대화하는 교수의 말속에 그냥 지나치기에 힘든 그런 주옥같은 말들이 많이 포함되어 있다는 것을 알 수 있었다.  사실 수사의 스토리 라인보다는 […]

계속 읽기

응급실로

어제 오늘 잠을 자기 힘들 정도로 살을 꼬매는 듯한 통증이 있어서 결국 오늘 응급실로 갔다.대학병원 크기는 아니더라도 중상급 병원은 되었는데 대상포진 약이 없다고 대학병원으로 가라고 해서 다시 대학병원 응급실로 가게 되었다. 의사 왈~~~“최근 과로 하셨나요?” “네~!” 대부분 젊은 나이의 환자들의 원인은 과로와 스트레스라고 한다. 사실 시간으로 치자면 괴로정도는 아니였다. 하지만 저번주 내내 컨디션이 안좋았는데 그 […]

계속 읽기

링거맞다.

36시간을 깨어 있었더니 정신이 몽롱하다. 요즘 너무 바쁘고 예상치 못한 일들이 프로젝트에서 일어나고 있어서 하루 하루가 빙판을 걷는거 같다는 느낌이 든다. 내일 본사하고 컨퍼런스 테스트 콜이 있는데, 좀 정신이 말짱해야 하고 눈 밑에 다크써클 지우고 와야 할텐데…쩝 하여간 집에 가서 눈 좀 붙이고 일어나서 번역 좀 하고 내일 무슨 말을 할지 생각 도 좀 해봐야 […]

계속 읽기

단순한 데이터 하나 뽑는것도 고민을 하자!

랜덤 쿼리 1000개만 뽑아주세요. 요즘 집중하고 있는 일이 몇개 있어서 매우 바쁜데 위와 같은 요청이 들어와서 단순하게 쿼리 각각을 늘어놓고 n번째 쿼리를 뽑아 주면 되겠다 하고 생각을 했었다. 하지만 점심 시간에 밥먹으면서 고민했는데, 우리가 랜덤 샘플링을 하는 이유가 무엇인지 생각을 해봤다. 그것은 바로 모집단의 특징을 알아보기 위해서 샘플링을 하는 것인데, 샘플링은 반드시 모집단의 특징을 띄고 […]

계속 읽기

데이터를 분석한다면 참고가 될 좋은 책 몇 가지

1. Head First Statistics2. Head First Algebra 3. Head First Data Analysis  (출간 예정) Head First 시리즈는 뭔가 출간 스토리라인이 있는거 같다는 느낌을 요즘 많이 받는다. 위 시리즈를 순서대로 읽는다면 앞으로 Data Mining이나 Machine Learning을 공부하는데 큰 도움이 될거라 믿어 의심치 않는다. 2번 책은 이미 주문해서 아마도 월요일정도 받아서 읽어보지 않을까 한다. 그리고 1번책의 경우 […]

계속 읽기

왜 이렇게 클래스 설계를 잘 하는가 했더니만

번역하다가 자바 클래스 설계를 무지 깔끔하고 멋지게 잘 해놓아서 뭐하던 사람인가 다시 읽어 봤더니 Cheaf Software Architect 였군. 게다가 Sun Certified Enterprise Architect(SCEA) 자격을 가지고 있어서 검색을 해봤더니 논술까지 해야하는 시험 과정을 거쳐야 얻을 수 있는 자바관련 최고의 자격증이란다. @.@ 3년 전에는 자바의 풍부한 라이브러리와 오픈소스 때문에 좋아했지만 지금은 OOP를 기반으로 하는 클래스 재사용성을 극대화 […]

계속 읽기

검색에 대한 몇가지 정보 링크들

Comparing Google and Yahoo! Search Result구글과 야후의 검색 결과 링크 순위를 비교하는 페이지인데 사실 많은 분들이 모 그러려니 생각하겠지만 나에겐 이 두 검색 결과가 큰 의미를 가지고 있다. 2007년 구글  인덱스 사이즈2008년 구글 인덱스 사이즈 물론 구글의 인덱스의 크기도 큰 의미를 가지고 있긴 하다. 위 측정 방법이 어느정도 신뢰도가 있을지 모르겠지만 나름 쿼리를 조합해 저런방식으로 […]

계속 읽기

Google News의 클릭 로그를 활용한 개인화

Google News에서는 특정 사용자들이 어떠한 뉴스글에 관심을 보이는지 쌓아두고 이를 기반으로 해당 사용자들에게 뉴스글을 추천해 준다. 뉴스글에는 댓글이나 태깅같은 것을 할 수 없으므로 그저 클릭 로그를 사용할 수 밖에 없는데, 이 클릭 로그를 사용해서 특정 사용자가 이 뉴스글에 관심이 있는지 없는지를 판단하게 된다. 그렇다면 클릭 로그를 어떻게 사용하는 것일까? 그것은 바로 특정 뉴스에 클릭을 하고 […]

계속 읽기