야후에서 있었던 Hadoop Community 모임

재미있었다. 발표자료 준비하는과정에서 뭘 발표할까 몇가지 중에서 고르다가 시작 2시간 전에 PPT 작성하고 발표 했다. 한재선 박사님은 역시 Hadoop을 이용한 ML관련 내용을 발표 하셨고, 형준님은 HBase의 성능테스트 해보신 경험을 발표 하셨다. 내가 했던 발표는 Thinking Parallel 이고 map/reduce를 해보면서 궁금했던 몇가지 질문에 답변을 찾는 방법으로 발표를 이끌어 나갔다. 발표자료 첨부한다. 결론은 개발자들에게 하드웨어를 추가만함으로서 얻는 […]

계속 읽기

Flex3

아무리 Backend 관련 엔지니어라고 해도 예쁘게 보여주지 못하면 결과의 효과가 심하게 반감되는 상황을 하도 많이 봐와서 견디다 못해 요즘 Flex를 해보고 있다. 공부하면서 Flex를 비롯해서 Flash 계열 어플리케이션의 동작원리를 어렴풋이나마 익힐 수 있어서 아주 좋은 경험이 되고 있다. (하지만 아직 내가 익힌것은 Flex 전체의 세발의 피도 안된다.) 여기서 쓰이는 ActionScript라는 언어가 자바와 상당히 닮아 있고, […]

계속 읽기

내일 얼랭 모임이 야후에서 있군요.

누가 보면 야후 코리아에서 있다는 이야긴줄 알겠지만 아쉽게도 야후 본사에서 모임을 갖는다고 한다. Erlounge @ Yahoo 재밋겠다. 전에 야후 내부 직원 전용 사이트에서 erlang으로 검색하니 딱 한명 나오던데, 그 사람이 모임장소 섭외를 한거 같다. 시간나면 이 친구하고 메신저나 터놓고 이야기나 하면 되겠군. urls 카페

계속 읽기

Erlang과 Python 인터페이싱하기

몇일전 Erlang이 라이브러리가 부족하다 뭐하다 하는 썰을 풀어 놓았었다. 그러다 어제 돌입한 작업이 그럼 Erlang과 다른 외계어들간에 인터페이싱이였다. 작업은 얼랭에서 강력하게 추천하는 방법인 port를 통한 인터페이싱이다. 강력하게 추천하는 이유는 다른 언어로 된 프로세스가 얼랭 런타임 환경 이외에서 실행이 되고 그곳에서의 예기치 못한 fail이 전체 얼랭 런타임 환경의 fail로 이어지는것을 방지해 주기 때문이다. 한마디로 fault-tolerant 한 […]

계속 읽기

얼랭(Erlang) OTP에 대한 단상

주말에 Erlang OTP(Open Telecom Platform)에 대한 학습과 생각을 조금 해봤다.OTP라는 줄임말이 주는 의미보다 더 큰 가능성과 기능을 가지고 있다는게 가장 처음 든 생각이였다.대용량(large-scale), 에러에 강한(fault-tolerant) 분산 어플리케이션을 만들 수 있는 하나의 어플리케이션 운영체제라는 말이 맞을 정도다. 요걸 보다보니 이런 어플리케이션을 만들고 싶다는 생각이 불끈 불끈 솓아 오른다. OTP를 보면서 이를 이용해 웹 크롤러 시스템을 만들면 […]

계속 읽기

5회 Daum Dev Day 참가신청을…

여태 Daum Dev Day를 블로그를 통해서 지켜보다가 이번에 제주도에서 행사를 한다기에 정말 솔깃해서 와이프한테 함께 참가해서 제주도에서 가서 재밋게 코딩하고 놀다 오자고 했다가 퇴짜 맞았다. (갈라면 혼자 가란다.ㅜㅜ)아는 분은 알겠지만 와이프도 나와 같은 개발자라서 결격사유가 전혀 없다. 하긴 더 유리하다. Daum Dev Day에서는 여성쿼터제가 있으니 참가 확률이 더 늘어나기 때문이다. 퇴짜맞구 이래저래 주변분들에게 함께 나가자고 […]

계속 읽기

Hanrss와 Site Explorer

일전에 Hanrss top 1000 블로거를 추출해 본 적이 있었다.반응이 좀 좋았는데, 이번에는 구독자수를 입력해봤고, 게다가 Yahoo! Site explorer의 데이터도 뽑아서 넣어 봤다. Site Explorer 에서 해당 url의 inlink count와 해당 주소의 sub url의 갯수를 알수 있다. 그것도 힘들게 html 파싱같은거 하지 않아도 말이다. 이 부분에 대해서는 Yahoo! Site Explorer API를 참고하길 바란다. 사실 내 의도는 […]

계속 읽기

왜 Machine Learning을 사용하는가?

작년 언젠가 회사 PD분이 위 질문을 했다. 아마도 그때 답변은 미지의 데이터에 대해서 학습된 데이터를 기반 예측을 해서 자동으로 어떠한 처리하기 위해 ML을 사용한다고 한거 같다.쩝~ ML 공부만 하고 실무는 전혀 안해본 샌님이나 할 수 있는 대답이다. 오늘 분류데이터를 분석하면서 왜 ML을 사용해야 하는지 정말 절절하게 깨달았다. 이 느낌은 이전에 스팸관련 논문을 쓰면서 ML실험을하는 과정에서 […]

계속 읽기

Yahoo! Research팀의 도움을 받아서…

3일동안 고민하고 코딩하고 테스트하고를 반복 하다가 결국 사내 machine learning 커뮤니티에 질문을 던졌다.미국시간으로 새벽에 메일을 받았을텐데, 어느 마음씨 좋은 Yahoo! research팀의 scientist분이 답변을 주셨다. 내 짧은 메일의 내용을 200% 이해하고 있었으며 정확하게 핵심을 짚어서 답변을 해주셨다.답변보다 놀라웠던점은 내가 하는 작업과 알고리즘에 대해서 훤히 들여다 보는 그 혜안이였다. 그분이 통한건지 내가 통하게 질문을 했던건지…..쩝 사실 그동안 […]

계속 읽기

구글 입사문제에 자주나오는 것들이…

사실 어제 알고리즘을 작성하다가 두 값을 넣어서 첫번째 값이 두번째 값보다 우선할때 true를 리턴하는 함수를 작성했다. 그리고 그걸 이용해서 데이터를 소팅을 했는데 처음 몇백건에 대해서는 아무런 문제 없이 되다가 실제 수백만건으로 작업을 하다가 메모리가 풀나버렸다. (당연하겠지만…) 일단 이전과 같이 하던 작업 스타일인 우열을 가늠할 수 있는 필드를 레코드 마지막에 넣어서 나중에 sort 명령으로 소팅해 버리면 […]

계속 읽기