Yahoo!의 Slurp가 너무 자주 사이트를 방문한다면 이렇게 해보시죠?

사이트나 블로그의 크롤 어뷰징을 줄일 수 있는 몇가지 방법을 소개한다. 일단 일반적인 구글이나 야후 크롤러의 성향을 말해보자면…크롤러들은 사이트가 바뀌었다고 생각하면 일단 자주 방문을 하게 되고 이전 방문때와 비교했을때 별다르게 바뀐점이 없다는 판단을 하면 방문 횟수를 적절하게 줄여나간다.그래서 본인의 블로그 스킨을 바꾸었을때 굉장히 많은 트래픽이 몰려서 트래픽 초과를 당한적이 좀 있었다. 물론 지금은 이전보다 트래픽이 훨씬 […]

계속 읽기

ANN을 한큐에 표현한 그림들

요즘 개인적으로 ANN을 이용한 어플리케이션을 만들고 있었는데, 이 글을 보고 설계를 고치기로 했다. 이미 80%완성을 했는데.. 쩝.. ㅜㅜ 먼저 글에 나온 그림이 상당히 인상적이였는데 ANN을 이렇게나 쉽게 이야기 하는 그림이 세상이 있을까 하는 생각이 들 정도의 아주 멋진 그림이였다. 아래는 각 Neural이 어떻게 계산되고 output을 어떻게 내고 있는건지 잘 나타내는 그림이고 아래 그림은 모든 레이어의 […]

계속 읽기

검색 컨퍼런스를 한다는데….

Search Day 2008 이 실시 되는구나..근데  내용에 비해(이건 전적으로 개인적인 느낌이다. 모든 분들에게 내용이 빈약한건 아닐테다.) 조금 비싸다. 게다가 평일이라니…. 더군다나 Tech 관련 Track을 보니 약간 실망이다. 사실 검색 서비스에 관심이 있다면 들을만 하겠지만, 저런 Track을 Tech주제로 이름 짓는건 정말 아닌거 같다. 이런게 Tech관련 컨퍼런스인지는 약간 의문이다. 뭐 국내 기술 컨퍼런스가 여태 다 그랬지만, 이제 […]

계속 읽기

앙상블 러닝에 대한 좋은 발표자료

이 앙상블 러닝 방법은 이전의 포스팅에서도 소개를 한적이 있었다. 이 앙상블 방법에 대해서 상당히 잘 설명한 발표자료를 소개한다. 역시 이런것은 예제를 어떤걸로 제시하느냐가 이해도를 높이는 가장 중요한 방법중에 하나라는 생각이 든다. 여기서 netflix prize를 풀기위한 방법에 따른 개선정도를 표시한 그래프가 있는데 대부분 존재하는 방법으로는 다 시도를 해본거 같다. 그래서 아마도 이 ppt의 저자는 이 방법들을 […]

계속 읽기

Hadoop이 야후 검색의 심장역할을 하게 될듯합니다.

Hadoop이 야후 검색의 심장역할을 하게된다. 뭐 사내에서는 오래전부터 진행이 되어 왔던 일이고, 이런 오픈 플랫폼 지원에 대해서 대대적으로 홍보를 하고 있는바 쓰지 않을수가 없다. 이미 대세는 대용량 처리의 시대가 되고 있고, 야후는 오래전부터 이런부분에 대해서 준비하며 앞으로 가장 많이 쓰일 상업용 어플리케이션의 오픈소스화를 성공시켰다. 아마도 이런 정보처리 부분에 대해서 리딩 그룹으로 야후가 앞장을 설 것이라 […]

계속 읽기

블로깅하다 죽을 검색 결과갯수.

xkcd블로그에서 본 그림인데, 그래프상으로는 꽤 설득력이 있다. 하지만 현재 (2008.01.14 19:13) 검색 결과로 봤을땐(died in a blogging accident) 블로깅 하다 죽을 검색 결과가 12.5k 정도 나오는거 같다. 그럼 야후의 결과는?  19.7k 정도 나오는군… (요즘 커버리지 늘린 결과인가? ㅋㅋ) 이런걸 보면 인터넷 참 재밋는 세상이다라는 생각이 새삼 든다. 얼마나 블로깅 하다가 죽을 포스팅을 많이 썼으면 이리 […]

계속 읽기

구글이 20 petabyte의 데이터를 얼마만에 처리할까?

구글이 MapReduce를 어떻게 사용하는지 상당히 구체적으로 제시한 재미있는 글이다. 20,000 테라바이트의 웹데이터를 하루하루 처리한다는데 엄청나구나. 그것을 처리하기 위해 100,000 개의 MapReduce jobs를 이용한다고 하고 말이다. 이 논문에도 나와 있는데 ACM에 접근해서 받아보기 힘들어서 첨부한다. XEuFb8k3ap.pdf 2004년도 이전 논문에 비하면 비슷하지만 내용상의 최신 내용이 조금 있는거 같다. 위의 내용도  약간 초록에 나와 있다. Yahoo의 Hadoop 클러스터 […]

계속 읽기

Google의 MapReduce 와 Hadoop

오늘 businessweek지에서 상당히 흥미로운 기사를 봐서 포스팅 해본다. The Two Flavors of Google 이라는 글인데, 요즘(?) MapReduce기술을 기반으로 각광 받고 있는 cloud computing 분야에서 두가지 기술적인 조류를 이루고 있는 Google의 mapreduce와 Hadoop에 대해서 이야기 하고 있다. 이 글을 보고 Hadoop이 구글의 기술을 99% 배껴서 만들어 졌다는 편견을 말끔히 해소할 수 있었다. 구글에서 Hadoop에 컨트리뷰트 하고 […]

계속 읽기

SVM을 이용한 스팸 블로그 분류 논문

요즘 여러 외국 학술대회에서 스팸 블로그 관련 문서들이 쏟아져 나오고 있어서 참 재밋는 논문을 많이 보고 있다. 그중에서도 Detecting Spam Blog: A Machine Learning Approach의 논문을 요며칠 저녁에 잠깐 보고 오늘 몇몇 관련 자료를 찾아봤는데, 참 재미있었다. 이 논문에서 Spam Blog Detection을 하는데 중요한 local feature와 link feature가 함께 서로 보완되어서 쓰여야 한다고 이야기 하고 […]

계속 읽기

학습 코퍼스

항상 뭔가 대학에서 실험을 하든지간에 가장 힘든 부분이 학습데이터 수집하고 분류하는 작업일거란 생각이 든다. 그래서 산학 연계측면에서 기업에서 학습 코퍼스를 제공하는 경우가 있는데 그런식으로 제공이 된 학습 코퍼스가 아닐까 한다. web spam challenge 내가 알기로는 위의 데이터가 야후 리서치랩에서 공개가 된것으로 알고있는데 상세한 것은 잘 모르겠다. ^^;아마도 웹 스팸에 대해서 연구하는 분들에게는 정말 필요한 자료가 […]

계속 읽기