포탈 블로그는 쓰레기들로 가득 차 있다.

몇일전 typos 큰형님과 맥주한잔을 하면서 이런저런 이야기를 했다. 현재 블로그 데이터를 시기별로 수집하고 계시는데. 수억건의 블로그 포스트중에 스팸이 엄청나다는 말씀을 하셨다. 그런데 재밋는건…. 포탈 블로그만 빼고 검색해보면 스팸은 확~~아~~악 줄어버린다는 말씀도 빼놓지 않으셨다. 예전에 무수한 펌질 블로그로 가득찬 네이버에 한방 먹이기 위해 구글이 들어왔다는 서명덕 기자님의 동영상이 순전히 상상력만으로 만들어진게 아님을 알 수 있었다. (based […]

계속 읽기

Google PageRank의 Personalization Vector

어제 구글이 개인의 선호도를 어떻게 랭킹에 반영하는지 알아냈다. 이름하여 개인화 검색의 구글버전이라고 해야하나? ㅎㅎ 위의 마지막 식에서 V^T라는 벡터가 개인화 랭킹을 위한 부분인데, Random Surfer가 주소를 직접 넣어서 페이지를 점프할때 적용이 되는 Vector이다. 이 부분을 모든 웹페이지가 동일한 확률로 점프를 한다는게 처음의 개념이다. 하지만 실제로는사람에게는 선호도라는게 있기 때문에 그렇게 하지 않는것이다. 그 벡터 자체가 선호도의 […]

계속 읽기

Deeper Inside PageRank

Google’s PageRank and Beyond책의 초안이라고 추정되는 논문 발견 논문은 책과 동일한 저자가 만들었고, 내용도 상당히 비슷하다. 물론 책이 더 상세하지만 말이다. Deeper Inside PageRank Amy N. Langville† and Carl D. Meyer∗

계속 읽기

마침표는 구글이 찍을 것인가?

1. 구글의 R&D 센터 설립 2. SK 커뮤니케이션즈가 엠파스를 인수 3. 주가가 올라가는 다음, 떨어지는 야후 4. 아직까지 움직이지 않는 구글과 파란 누구나 예상하는 삼국지의 형태로 2007년이 시작되지 않을까 한다. 마침표는 구글이 찍을것 같은데, 아직 의중을 드러내지 않는 모습에 조바심이 난다. 하지만 어제 큰형님과 이야기한 결론은.. 이럴때일 수록 동요되지 말고 관망하는 자세를 가지고 자신의 실력을 […]

계속 읽기

구글 검색엔진 개발에 참여한 한국인, 조정후 교수

다음 커뮤니케이션에서 사내 세미나를 했을때 이분이 웹 스팸처리를 어떻게 할것인가 세미나를 하신적이 있었다. 끝나고 바로 세미나 내용을 정리 했어야 하는데, 쩝~~~~~ 아직 수첩에 남아 있는데 나중에 한번 정리 해봐야 겠다. 그때 생각나는 알고리즘은 TrustRank 알고리즘이다. 구글 페이징 랭크의 개념을 활용한 스팸처리 알고리즘.. 이때 왜 마지막 식에서 dangling node에 대한 패널티를 주느냐? 하고 질문을 했었는데.. ㅎㅎㅎ […]

계속 읽기

Google PageRank 발표자료

금요일과 월요일 두번에 걸쳐 페이지랭크 알고리즘에 대한 발표를 마쳤다. 항상 생각하는건데 발표를 하고 나면 도리어 내가 얻는게 굉장히 많다. 그래서 무엇보다 나를 위한 발표가 아니였나 생각된다. ^^; 세미나를 함으로 잇점으로 생각되는 부분은.. 1. 발표직전까지 준비를 하면서 이게 정확히 이유가 뭔지 끊임없이 나에게 질문하게 된다. 2. 발표중에 돌발질문에 의해 세미나 참석자와 함께 고민하게 된다.(강의라는것과 다른점이라 하겠다.) […]

계속 읽기

블로그는 개인의 신용 창조 장치이자 포트폴리오 – from 웹 진화론

웹 진화론이라는 책을 보고 블로그에 관한 글중에 가장 맘에 드는 글이 있어서 인용해본다. “지식 생산 도구로서 블로그“에서 블로그를 쓰면 엄청난 기세로 성장하게 된다. 이는 최근 1년반동안 내가 직접 실감함 것이다. 블로그를 통해 내가 배운 최대의 교훈은 ‘자신이 직접 돈으로 바꾸어낼 수 없는 정보와 아이디어는 감춰두기보다는 무료로 방출할 경우(무형의)커다란 이익을 얻을 수 있다’는 것이다 . 최근 […]

계속 읽기

검색엔진 개발자 그룹 10월 13일 정모 이야기

검색엔진 개발자 모임의 오랜만에 정식 모임을 가졌다. 이번 모임에서 가장 크게 달라진점은 개발자 수준 향상을 위한 세미나 한건과 그룹내 게시판 이슈 사항이였다. 물론 나는 세미나 발표를 거의 하고 싶지 않았다. 왜냐면 너무 급하게 준비를 했고, 세미나 예행연습은 커녕 ppt에 대한 검증작업도 못했기 때문이였다. 하지만 카페지기(하얀눈길)님이 갑자기 발표를 하라는 바람에 얼떨결에 불안한 마음을 안고 발표를 했었다. […]

계속 읽기

Information Retrieval : Algorithms And Heuristics

전에 amazon에서 자주 보던 책이였는데, 오늘 우연하게도 학교에 일찍 갔다가 도서관에서 빌려본 책이다. 물론 오늘 정보검색 시험이 있는 날이기도 하고 워크샵 때문에 몸을 가볍게 하고와서 책을 한권도 가져오지 않은 상태였다. 그래서 찾아볼것도 있는 찰라에 책을 빌려봤는데 보다가 너무 좋아서 영풍문고에 바로 가서 책을 구입할려고까지 했었다. 여태 Okapi모델에 대한 상세한 설명이 있는 책을 한번도 보지 못했는데 […]

계속 읽기

검색엔진 공부 마인드 맵

예전에 검개그의 하얀눈길님이 검색엔진 공부 모델링을 그려주셨는데 그것을 좀 업그레이드 시켜봤다. 별루 달라진건 없지만 그동안 이 블로그에 올렸던 나의 글들과 개발시 필요한 책들에 대한 언급의 종합판이다. 물론 아래 맵에서 나온 책들이나 소스같은것은 모두 내가 봤고 분석해본 것들이다. ThinkWise 5.0이 새로 나왔다고 해서 그걸로 그려 봤는데 역시나 손에 익은 툴이라서 좋긴하다. 공부해보니 검색엔진은 기초학문에 대한 Base가 […]

계속 읽기