예전에 포털의 뉴스 편집권에 대한 이야기들이 정치권에서 많은 이슈가 되었던 적이 있었다. 그때 집단지성이라는 말도 나오고 편집 방향에 따른 잘못된 편집들이 이상한 여론을 조장한다는 이야기들이 상당한 반향을 일으켰다. 대표적으로 아고라가 표적이 되기도 했고…
사실 대부분의 포털에서 메인 창에 뜨는 뉴스를 에디터가 직접 편집한다. 물론 이런 에디터들의 교육은 뉴스섹션의 편집장이 하겠지만 말이다. 그래서 포털마다 뉴스의 방향성이 있을 수 밖에 없다.
그래서 나도 역시 포털을 언론사로 봐야 한다고 생각한다.
정치권 이야기는 뒷켯에 두고 이것을 자동화 할 수 없을까 살짝 고민을 해본적이 있다.
나는 이것을 신문사, 기자의 관점에서 봤다.
일단 기자가 쓰는 글의 방향은 신문사의 편집 방향과 일치한다고 보면 기자에 대한 뉴스 기사들을 수집해보고 그들의 핵심어들을 추려서 살짝 tag cloud를 만들어 보면 기자의 방향성을 유츄할 수 있겠다. 물론 이 tag cloud를 추출하는 방법은 말처럼 간단하지 않겠지만 말이다.
그리고 이렇게 추출되고 정제된 vector들을 가지고 클러스터링을 한다. 그렇게 하면 비슷한 주제 경향을 가지고 있는 기자들끼리 모아지겠고 그 클러스터 안에서 다시 vector의 각 항목(단어가 될 수 있겠다.)들간의 클러스터링을 다시 해봐서 비슷한 속성을 가지는 단어들 끼리 모아보면 상당히 재미있는 결과가 나오지 않을까 한다.
뭐 클러스터링은 그저 비슷한 기자들을 보고 싶어서하는 일이였고, 일단 뉴스를 자동으로 편집하느게 목적이니….
각 기자 vector가 모아졌다면, 새롭게 feeding된 뉴스기사들을 파싱해서 이 또한 벡터로 만든다. 그래서 이 글을 쓴 기자의 vector와 유사도 비교를 하고 그것을 score로 저장한다.
하루동안의 모든 기사와 해당 기사를 쓴 기자들간의 유사도 계산을 한 결과가 의미하는것은 그 기자가 여태 자신이 써왔던 전문분야 및 방향과 오늘 쓴 기사가 잘 맞는지를 판단하게 된다. 스코어가 높다면 그만큼 그 기자의 전문성이 잘 반영된 기사라 볼 수 있고 이런 기사를 top에 올려서 제공하면 어떨까 생각해 봤다.
만일 첫 화면에 특정 주제들로만 가득 찰 수 있을꺼라는 우려가 있다면 이렇게 top에 올라간 기사들을 대상으로만 편집을 하는것은 어떨까도 생각이다. 매 시간 엄청난 양의 기사들이 나온다면 단순 필터링 용도로도 쓸만할 듯 하다. (에디터 리소스를 많이 줄일 수 있을것이다.)
일단 서비스적인 관점에서는 편집을 자동으로 해줄 수 있는 방법에 대한 나의 아이디어였고, 개인적으로 궁금한것은 과연 기자들이 방향성과 전문성을 가지고 기사를 쓰는지 확인해보고 싶다는 것이다. 그런 전문성 그러니까 tag cloud가 어떤 방향성을 가지고 어느 특정 토픽에 집중되어 있다는 것을 각 기자들 마다 자신이 어떤 글을 주로 쓰는지 확인하고 이런 정보를 사용자들에게 제공한다면 기자들이 자신의 이름을 걸고 쉽게 글을 쓰지는 않을 것이기 때문이다.
그리고 무엇보다 나는 전문성을 가지는 기자의 글만 골라보고 싶다는 것이다. (시간도 없으니…)
이런 작업을 신문사의 관점으로 뽑아보면 어떤 결과가 나올까도 꽤 재미있을듯 하다.
ps. 에궁 … 번역해야 될 책을 쭉 한번 보고 있는데 참 별 이상한 잡생각들이 많이 나서 이런 글도 쓰고 있구나. ㅜㅜ
하긴 책을 읽는데 이런 아이디어에 대한 상상이 없다면 무슨 재미로 책을 읽는담 ㅋㅋㅋ
포털 첫 화면 뉴스 자동 제너레이션 고민들 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.