Comparing Google and Yahoo! Search Result
구글과 야후의 검색 결과 링크 순위를 비교하는 페이지인데 사실 많은 분들이 모 그러려니 생각하겠지만 나에겐 이 두 검색 결과가 큰 의미를 가지고 있다.
2007년 구글 인덱스 사이즈
2008년 구글 인덱스 사이즈
물론 구글의 인덱스의 크기도 큰 의미를 가지고 있긴 하다. 위 측정 방법이 어느정도 신뢰도가 있을지 모르겠지만 나름 쿼리를 조합해 저런방식으로 할수도 있겠구나 하는 생각도 해본다.
그리고 현재 구글의 인덱스 사이즈
(‘왜 일본어 페이지가 상위를 차지할까?’에 대한 질문에 대한 나의 생각.)
구글의 인터넷 데이터 센터 위치
아시아에 상대적으로 데이터 센터가 별로 없음을 알 수 있다.
Machine Learning 동영상 강의들
거의 모든 기술들에 대한 설명을 하고 있다. @.@
상위 랭크 결과가 일본어 검색결과가 많네요 ㅋㅋ (이런것만 보는ㅋㅋㅋ)
오호 정말 재밋는 질문이네요? ㅋ
그냥 드는 생각은 term에 대한 가중치 계산을 언어별로 아니면 마켓별로 따로 하는거 같다는 예상을 해봅니다. the와 같은 단어는 영어권에서는 df가 상당히 높게 나와 가중치가 거의 0수준일거 같고 그나마 일본어 웹에서는 the라는 단어의 df가 상대적으로 적게 나와서 해당 문서의 랭킹이 올라간게 아닐까도 생각합니다.
그렇다면 한국어 문서 왜 안나오지? 하는 생각도 들긴 한데요. 저의 가정으로 생각해 보자면 전체 문서에 대해 the라는 단어의 출현 비율이(한국이) 많지 않을까도 생각해 봅니다.
구글에서 검색한 the 단어의 검색 결과 개수입니다.
한국어 :the == 165,000,000
일본어 : the == 304,000,000
한국어 전체 웹페이지와 일본어 전체 웹페이지의 차이가 약 5배 정도 나는 것으로 알고 있는데
이렇게 하면 the에 대한 idf 점수가 한국:일본 = 1:2.5 정도가 나오네요.
일본어의 the 가중치가 더 높다는 이야기겠죠.
나름 해보니 재밋기는 하네요. ㅋ
좋은 질문 감사합니다.
인덱스 크기를 얻기 위한 쿼리가 재미있네요. 한국어에서 DF가 매우 높은 단어는 뭐가 있을까요? ^^;
저도 그게 뭐가 될지 궁금합니다.
고민 말고 내일 그냥 한국어 분석하는 팀분들에게 물어봐야 겠습니다. ㅋ