Web Data Mining 강의

회사서 웹검색을 하고 있는 관계로 대학원 생활동안 웹마이닝에 대한 공부 욕구가 컷으나, 개설이 한번도 된적이 없어 입맛만 다시고 있었다. 그러다… 이번 학기에 웹 데이터 마이닝 과목이 개설 되었다는 이야기를 듣고 정말 갈까 말까 고민하다가 청강을 하러 학교에 갔다.사실… 졸업한 몸이니 청강이라고 하기엔 좀 그렇다. ㅋㅋ 그런데 Springer책들은 왤케 쉽게들 나오는지… 텍스트북이 Web Data Mining  인데 […]

계속 읽기

Hadoop 성능 측정

 Hadoop이 느리다는 글을 우리 와이프님이 보시고 기정 사실로 받아 들이려고 하는걸 아래 테스트로 무마하고자 한다. 그럼 근거를 제시해 보도록 하겠다. 전에 netflix 데이터를 돌려본다는 포스팅을 쓴적이 있다. 그곳에서 제공해준 10억건이 넘는 데이터가 아래와 같은 포멧으로 있다. movieid(key), <rating, date, userid>,<rating, date, userid>, <rating, date, userid>, …….. 이것을 아래와 같은 유저 아이디를 키로 하는 데이터를 만드는 […]

계속 읽기

collective intelligence in Action

Collective Intelligence 라는 책이 나온지 약 6개월이 넘어가고 있는데, 이와 비슷한 책이 또 나올 생각인가 보다. 뒤에 in Action을 넣어서 Collective Intelligence in Action으로 말이다. 이 책은 자바 기반으로 설명을 하고 있고, 여러 오픈소스 프로젝트들을 이용하고 있다. Lucene, JDM(Java Data Mining)과 WEKA라는 마이닝 툴킷까지… 이건 이전의 책과는 달리 툴을 사용하는 방법 등에 대해서 주로 설명을 […]

계속 읽기

netflix prize에 도전하고 있습니다.

netflix prize라는 해당 사용자가 보지 않은 영화의 점수를 예측하는 시스템을 만드는 대회이다. 상금이 무려 100만달러에 육박한다…@.@ 이것을 접하게된 계기는 hadoop mapreduce를 이용한 canopy clustering에 대한 자료를 찾다가 이 숙제 데이터셋을 보고 알게 되었다. netflix prize사이트에 가면 많은 설명이 되어 있고, 이 블로그에 가면 쉽게 정리된 자료를 볼 수 있다. 아무래도 서비스를 위한 빠른 알고리즘을 원하기 […]

계속 읽기

“경력 7년차 개발자의 선택” 을 읽고…

제목의 글을 읽고 나름의 생각들… 회사는 자신의 능력을 향상시키기 위해서 일을 주는건 아니다. 물론 회사의 도전적인 일을 맡음으로서 그런 일이 가능할지는 모르겠지만, 대부분 이사람이 하던일, 잘 하는일을 부여한다. 따라서 자신의 복수의 칼을 갈려면 회사와 일을 탓해서는 안되고 자신이 관심있고 추후 ‘칼’로 쓰일 기술 분야에 대해 자신의 시간을 할애해서 공부해야 한다는 것이다. 내 주변에 새벽에 가족들이 […]

계속 읽기

이마트 미니북(포켓북)

예전에 이마트 책코너에 가면 일반 서점에 비해서 별 다를게 없고 게다가 서점보다 다양하지 않아 그리 찾지 않았었다. 그러다 올 설 연휴때 고향에 내려가 이마트에 가서 깜짝 놀랐다. 여타 시중의 서점에서는 팔지 않는 미니북을 팔기 때문이다.대부분의 미니북이 고전위주로 이루어져 있는 일반 서점에 비해 가장 많이 읽힌 최근의 베스트셀러 위주로 미니북이 구성되어 있었다.그래서 이번에 이마트를 방문하고 아래와 […]

계속 읽기

Hadoop이 야후 검색의 심장역할을 하게 될듯합니다.

Hadoop이 야후 검색의 심장역할을 하게된다. 뭐 사내에서는 오래전부터 진행이 되어 왔던 일이고, 이런 오픈 플랫폼 지원에 대해서 대대적으로 홍보를 하고 있는바 쓰지 않을수가 없다. 이미 대세는 대용량 처리의 시대가 되고 있고, 야후는 오래전부터 이런부분에 대해서 준비하며 앞으로 가장 많이 쓰일 상업용 어플리케이션의 오픈소스화를 성공시켰다. 아마도 이런 정보처리 부분에 대해서 리딩 그룹으로 야후가 앞장을 설 것이라 […]

계속 읽기

스팸필터 두번째 강좌 올라갔습니다.

결혼식 전에 집필했던 강좌가 올라갔다. 1회때보다는 많이 발전한듯한 느낌이 든다. (자퍽… ㅜㅜ)정말 1회 강좌는 올리고 나서 많이 후회하기도 했는데 이번 강좌는 좀 다르다.(마눌님이 보고는 저번것보다 이해하기 쉬웠단다. ^^) 이걸로 스팸필터 강좌는 마무리 짓는다.저번에 이메일로 어떤분이 상품 추천하는 로직에 대해서 설명해 달라고 그러셨는데 스팸필터로 하는 바람에 약속을 지키지 못해서 죄송하다는 생각이 든다.다음 기회가 된다면 상품 추천 […]

계속 읽기

대한민국 블로거 컨퍼런스 참가요.

살짝 이 블로거 컨퍼런스의 승인 기준에 대해서 재밋는 방법을 제안해 본다. 1. 구글의 pagerank순으로 블로거(블로그 host)들을 소팅한다.2. 상위 n개를 추출해 승인한다. 뭐 이게 너무 편파적이라면 검색엔진에서 해당 호스트(블로그)글이 많은 순으로 소팅해서 추출하든지… inlink갯수가 많은것들을 추출하든지…아니면 블로그 닉네임을 검색해서 검색 결과수가 많은 사람순으로 소팅해서 뽑는다든지… 그런데 이름이 유니크해야 한다는 오류가 있겠구나. 아무튼 주절대는거 이만하고. 이 컨퍼런스 […]

계속 읽기

가고 싶다…Hadoop summit

돌아오는 3월 25일 Yahoo! 본사에서 Hadoop summint 행사가 열린다.역시나 제리양이 분산컴퓨팅에 상당한 관심을 두고 있음을 이 서밋 행사에서 말해주고 있다. The latest proposed agenda follows: Time Topic Speaker(s) 8:30-8:55 Breakfast 8:55-9:00 Welcome to Yahoo! & Logistics Ajay Anand, Yahoo! 9:00-9:30 Hadoop Overview Doug Cutting / Eric Baldeschwieler, Yahoo! 9:30-10:00 Pig Chris Olston, Yahoo! 10:00-10:30 JAQL […]

계속 읽기