오늘 간만에 올블로그에 들렀다가 스팸 블로그에 대한 포스팅을 여러개 봤다.
휴우… 한달에 600달러 정도를 adsense로 벌수 있는 그런 스팸 블로그를 만드는 사람들이 실제 있었고 툴도 있는거 같다. 그런데 그 방법이라는게 정말 기상 천외하다.
기존의 adsense로 먹고사는 순진한 사람들은 그저 인기 키워드를 근거로 해서 뉴스글을 블로그에 넣는 방법을 사용해서 트래픽을 유발함으로 수익을 얻고 있다. 한마디로 펌 블로그인데 이런 블로그는 dedup 알고리즘을 적용해 랭킹을 내릴수 있는 여지가 있는 블로그들이다.
한마디로 블로그 스피어의 데이터가 풍부해지기 전까지는 귀엽게 봐줄수 있는 그런 블로그들이다.
그런데 정말 기발한 스팸(?) 블로그가 나타났다.
최신 인기 키워드를 모니터링해서 그 키워드를 직접 검색엔진에 날려 결과 페이지 text를 그대로 포스트를 해버리는 방법이다.
물론 검색 결과로 나온 링크들도 고스란히 가지고 와서 포스팅 해버리니 검색해서 들어온 사용자도 이것이 정보를 조합한 페이지로 보일 수밖에 없고, 자신이 인지하지 못한 검색결과를 포스트에서 보고 다른 페이지로 넘어갈수도 있는 것이다.
이런 페이지를 정말 스팸 블로그라고 할 수 있을까? 그 정보라는게 펌질을 한것임에는 분명하다. 하지만 필요할수도 있는 정보이기도 하다는것이 조금은 아이러니하다. 그것도 키워드에 딱 맞는 검색 결과이니 두말할것도 없다.
아래는 내가 “정일우 키스신”키워드로 찾은 스팸 블로그이다.

화면을 보면 네이버 검색 결과를 복사해 온걸로 보인다.
정말 아이디어에 감격할 따름이다. 저런 기발한 생각을 할 수 있는 사람이 우리팀에 있어야 하는데. ㅎㅎ
어찌되었건 블로그 검색의 freshness가 가장 좋은 네이버 블로그 검색이 해결하는 모습을 보는것도 재미있을거 같다.
저런 사이트가 늘어난다면 과연 어떻게 해결해 나갈까?
그리고 나라면 어떻게 해결할까?
그 의도가 의심스러울수 있지만 이런걸 스팸블로그라고 치부하기에는 무리수가 있을수 있을듯 하기도 하군. 특정 주제에 대한 이러한 방법은 모니터링이나 메타검색에서는 오래전에 사용되어 왔던것이긴 한데, 그것이라고 우긴다면 어쩌나. ㅎㅎ.
메타검색과 어느정도 닮아 있었습니다.
그런데 검색 결과도 저작권에 걸리는 부분인지요? ㅋ
여하튼 재미있긴하네 ~ 그리고 그 창의력에는 공감하지만, 자신의 정체성을 잃어버릴 수 있지 않을까요 ㅋㅋㅋ
여하튼 재미있는 글 잘보았습니다…
요즘 스팸관련 글이 자주 올라오네~~ 조만간 여기에도 적용되는건가 ?
아 그리고 내 다음블로그에 스팸성 댓글이 너무 많이 올라오는데 이거 어떻게 안되려나 ? ^^;
일단 블로그의 정체성 보다는 ….
음 돈벌기위한 수단으로서 블로그죠. ㅋㅋㅋ
어딜가나 스팸성 덧글…. ㅋㅋㅋㅋㅋ
제가 좀 해보죠. ㅎㅎ
광고가 없는 세상에서 살고 싶습니다. ^^;
테터툴즈를 업그레이드 해보심이… ^^;
타이포스님 예기대로 의도에 가장 큰 값을 주어야 할듯하네요.
예전에 생각했던거였기도 한데…. 저거 프로그램으로 개발되어 온라인 마케터나 스패머에게 배포되면 재밋는 세상한번 구경할수 있을듯….
참고로 N사는 인력자원을 총동원해서 수동필터링을 한다는…
안녕하세요… 첨 뵙네요 ㅎ
제가 개발하고 있는 크롤러에서는 광고영역의 비율을 산출해내는 알고리즘을 적용하고 있습니다.
즉, 광고비율이 30% 다 40%다 이렇게 수치화되어 나오는것이죠… 광고비중이 높은 포스트는 가중치를 낮게 설정하는 방법을 적용할 생각입니다. 그리고 한가지 더… 많은 URL을 수반하고 있는 포스트는 말씀하신 문제의 마케팅 기법의 사이트라고 일단 의심 리스트에 올릴수 있겠네요.
(URL은 제가 현재 개발하고 있는 검색엔진입니다.)
http://218.36.66.28/index2.php
다모아 스크랩 툴 잘 봤습니다.
이거 제가 아는 형님이 개발하신 크롤러도 비슷한 기능이 있어서 시연보면서 좀 놀란적이 있었는데, 하나의 완성된 툴로는 굉장히 잘 만드신거 같네요.
IE 컨트롤러를 이정도로 이용할줄 아는 사람은 별로 없다고 들었는데, 혹시나 한사람 건너서 아시는 분일수도 있겠네요. ^^;
일단 광고 영역 비율로 포스트의 질을 판단하는건 문제가 있다고 생각합니다. 여러가지 side effect가 날수가 있기 때문이죠. 사실 top blogger중에 광고를 이용해서 블로그의 수익을 올리는 분들이 꽤 많기 때문이죠. 그렇다고 그 분들의 포스트가 절대 질낮은 것은 아니라는겁니다.
사실 검색엔진 보다는 인공지능으로 크롤 영역 지정하는 걸 좀더 자동화 시키시면 어떨까 하는 생각을 해봅니다.
그러니까 정말 자동으로 전체 영역을 지정해도 제목과 날짜, 본문이 정확도 높게 추출될 수 있게 말이죠.
이 분야는 국내 모 회사에서 시도 했었고, 어느정도 성과도 있었던적이 있던걸로 압니다. (사실 이것도 저의 많은 관심사 중에서 하나랍니다.)
네, 의견 감사합니다. Typos 님이 예전에 그루터 하실때 만드신적이 있으시고 서울에서 만나뵀습니다.
광고영역의 비중은 너무 광고영역이 큰 포스트만 걸래내는 용도이고 가중치로 쓰이기 때문에 블로거의 가중치와 일부 상쇄되는 작용을 할 뿐입니다.
대신 컨텐츠의 크기도 같이 알아오므로 쓰임새가 다양해질것 같습니다. 지금 예제 사이트에서 보신바와 같이 크롤영역이 사람의 시각적인 부분과 비슷하게 오려내는 작용을 합니다. 다모아의 영역인식기술이 그대로 적용되었다고 보시면 되곘습니다.
현재 블로그라고 해서 특별히 특정 타입을 인식하는게 아니라 조선일보나 다른 사이트를 긁어도 똑같이 컨텐츠 영역만 인식합니다.
국내의 모회사에서 시도했었다고 하셨는데 혹 예전에 X2모모모 라는 회사가 아닌지요? TV로도 소개되고 했던 기억이 납니다.
ㅎㅎ 현재는 인덱싱의 구조를 고도화시키는 작업을 하고 있습니다. 루씬을 적용하기에는 단기간(현재 25일정도 진행)에 무리가 따라서 DB를 이용해 작업을 하고 있습니다.
곧 소개를 드릴수 있을것 같습니다. 그럼…
컨텐츠의 길이를 가지고 문서의 가중치를 판단하는것은 좋은 시도 같습니다.
국내의 모회사에서 시도했었던 것은 제가 아는 모회사는 아닌거 같습니다.^^
‘첫눈’이라는 회사에서 이 분야에 대해서 시도를 했었고, 실제 결과도 좋았던걸로 알고 있습니다.(근거는 첫눈 사장님 서울대 세미나에서..)
빨리 보여주셨으면 좋겠습니다. ^^
YST쪽에서는 SRP demotion을 합니다.
즉 페이지가 검색결과와 닮아 있으면 좋지 않은 문서로 판단 하는것이지요.
FYI 입니다 ^^
벌써 이 부분에 대한 고려를 하고 있었군요. ^^