가고 싶다…Hadoop summit

돌아오는 3월 25일 Yahoo! 본사에서 Hadoop summint 행사가 열린다.
역시나 제리양이 분산컴퓨팅에 상당한 관심을 두고 있음을 이 서밋 행사에서 말해주고 있다.

The latest proposed agenda follows:

Time Topic Speaker(s)
8:30-8:55 Breakfast
8:55-9:00 Welcome to Yahoo! & Logistics Ajay Anand, Yahoo!
9:00-9:30 Hadoop Overview Doug Cutting / Eric Baldeschwieler, Yahoo!
9:30-10:00 Pig Chris Olston, Yahoo!
10:00-10:30 JAQL Kevin Beyer, IBM
10:30-10:45 Break
10:45-11:15 DryadLINQ Michael Isard, Microsoft
11:15-11:45 Monitoring Hadoop using X-Trace Andy Konwinski and Matei Zaharia, UC Berkeley
11:45-12:15 Zookeeper Ben Reed, Yahoo!
12:15-1:15 Lunch
1:15-1:45 Hbase Michael Stack, Powerset
1:45-2:15 Hbase App Bryan Duxbury, Rapleaf
2:15-2:45 Hive Joydeep Sen Sarma, Facebook
2:45-3:00 Break
3:00-3:20 Building Ground Models of Southern California Steve Schossler, David O’Hallaron, Intel / CMU
3:20-3:40 Online search for engineering design content Mike Haley, Autodesk
3:40-4:00 Yahoo – Webmap Arnab Bhattacharjee, Yahoo!
4:00-4:30 Natural language Processing Jimmy Lin, U of Maryland / Christophe Bisciglia, Google
4:30-4:45 Break
4:45-5:30 Panel on future directions
5:30-7:00 Happy hour

마지막 Yahoo -Webmap 부분이 가장 관심이 많은 부분이다.

요 웹맵(Webmap)이라는것이 최근 뉴스사이트에서도 언급이 되어 있는데, 여러 정보를 가지고 웹 페이지의 퀄리티를 측정하는 기술이다.(뭐 이정도는 이미 공개가 되어 있으니…)

일단 링크를 기반으로 점수를 산정하겠는데, 이때 노드별로 상당한 통신이 이루어져서 링크계산을 하게 된다. 이 부분을 Hadoop으로 어떻게 구현을 할지 상당히 궁금하다. (기본적으로 Hadoop은 노드별로 통신을 개별적으로 하기 힘들다. )
아마도 위 summit 행사에서 개략적으로 이야기 해줄것으로 보고 있고 아주 기대된다. (하지만 직접 이 ppt 발표를 볼 기회가 있을지는….??)

그리고 구글에서 NLP 처리에 어떻게 쓰이고 있는지도 궁금한데, 아마도 통계기반의 NLP방법을 사용할 것으로 예상되고  Hadoop으로는 어떻게 구현이 될지 살짝 예측이 되기도 하다. 

한국에서는 보기 힘든 기술공유의 자리가 빈번히 열리는 외국이 부럽다.
에공…. 이럴때마다 살짝 출장 가고 싶다는 생각이 드는군….

CC BY-NC 4.0 가고 싶다…Hadoop summit by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.