전문가의 시대, 대용량 데이터 분석의 시대

Illustration: Marian Bantjes 전문가의 시대는 끝났나얼마전 블로그를 통해서 알계된 분의 포스팅 제목이다.링크가 된 원본 칼럼의 내용이 다소 과격하다고 느낄 수 있겠지만 두 글 다 정말 흥미롭게 읽었다. 데이터의 힘에 대해서 알고 싶은 분들은 한번정도 읽어봄 직 할거 같다. 게다가 여기 소개된 super crunchers 라는 책도 읽어 봐야 겠다.  ps. 사실 장문의 같은 제목의 포스팅을 썻지만 […]

계속 읽기

알고리즘을 학습할때 – Genetic Algorithm

사실 뭔가를 배울때 동기부여는 시작시 쉽게 지치지 않게 하기 위한 가장 좋은 방법이라 생각한다. 예를들면 전투에서도 지휘관이 전투직전에 병사들이게 독려를 하는것도 마찬가지 이유가 되겠다. 사 실 ML알고리즘을 학습할때 그 많은 수식과 복잡함에 혀를 내두를 때가 많다. 어떨때는 10년전에 보던 정석책을 뒤적일때도 있고, 논문에 나온 내용보다 훨씬 많은 내용을 가진 수학책을 봐야할때도 부지기수다. 그래서 이런것을 공부하는데 […]

계속 읽기

Amazon EC2를 스패머가 사용한다.

참으로 스패머들은 대단한거 같다. Amazon: Hey Spammers, Get Off My Cloud! 가격도 싸고, IP대역도 다양하고, 가입시 많은걸 물어보지도 않으니 스패머들에게는 쓸만한 시스템인거 같다. “pay-as-you-go”류의 서비스가 이런방향으로 악용될 수도 있겠다는 생각을 잠시 해본다.그나저나 EC2의 ip대역도 blacklist에 모조리 올라가 있을껀데 참 걱정이다. 이제는 스팸메일을 detect하는것보다 스팸머(스팸을 발송하는 사람)를 detect하는 방법이 나와야 하는건가? 좋은 방향으로 클라우드 컴퓨팅을 쓰는사례가 […]

계속 읽기

좋은 툴도 좀 사용할 줄 알아야 겠다.

데이터를 한눈에 볼 수 있는 방법을 찾다가 결국 Excel로 넘어가고, 좀더 내가 하고자 하는 일에 맞는 결과를 빨리 보기 위해 weka로 넘어갔다. 그러다 이놈이 메모리 문제, 불안정성 등을 이유로 요즘엔 matlab으로 넘어가려고 한다. 실제 matlab은 야후 전사적으로 research 그룹에서 빈번하게 사용하는 툴이라서 매킨토시, Windows, Linux 등 여러 플랫폼의 바이너리가 사내에서 직원에게 제공이 되고 있었다. 사실 […]

계속 읽기

야후는 왜 얼음집을 좋아하는걸까요?

지민아빠님의 글을 읽고 써본다. 솔직히 여름이여서 얼음집이 인기가 좋다. 라고 말하기에는 좀 썰렁하군… ^^; 나도 왜 순위가 높은지 말해주고 싶어서 입이 근질거리는 찰라다. 사실 이 문제에 대해서 내부적으로 많은 이야기가 나왔었다. 몇가지 이유를 댈수 있겠지만 이글루스라는 서비스 자체 사용자들의 블로그 스피어에 대한 기여도가 높아서 신뢰도가 높다는 정도로 말씀 드린다. (아마도 더 자세한 이야기는 추후 열릴것이라 […]

계속 읽기

야후 코리아 블로거 랭킹

예전에 Platformday에서 블로그 서비스에 Webmap을 사용하고 있다는 말을 한적이 있다. 그리고 그것에서 파생되어 나오는 여러 서비스(?)가 어떤것이 될것인지 살짝 언급을 했었다. 바로 내 블로그 우측하단에 있는 뱃지가 그 결과물중에 하나이다. 972 이미 typos 형님이 이 부분에 대해서 잠깐 언급을 하고 계신다. 위 랭킹이 기존의 블로거 랭킹과 다른점이라면 Machine Learning 알고리즘에 의해서 나온 결과라는것이다. 이전에 올블이나 […]

계속 읽기

랭킹 비교 함수

어떤 데이터셋의 나열에 대한 비교를 수행할때 Correlation을 많이 사용한다.이전에 inlink 카운트와 인덱스된 페이지의 갯수에 대한 분석을 Correlation을 이용해서 했는데 이 식은 그런 경향성을 분석하는데 유용하게 쓰일 아주 중요한 식이다. Pearson correlation 일반적으로 Correlation이라고 함은 Pearson Correlation을 지칭함을 의미한다. 그리고 이 Pearson Correlation은 랭킹을 비교할때 쓰이는 Spearman’s rank correlation coefficient 같은 특수한 식의 기본 개념이 된다. […]

계속 읽기

모두 축하해 주셔서 감사합니다.

내 블로그 사상 최다 덧글과 많은 전화 그리고 문자들… 자고 있다가 받았지만 멀리 미국에서 직장동료분께서 주신 축하전화 … 너무 많은 축하를 받아서 몸둘바를 모르겠다. 축하주심에 너무 감사드립니다. 블로그에 있는 축하 덧글은 하루에도 수 번씩 보게 되네요.  일일이 덧글을 다는것도 구차해 보여서 이렇게 포스팅으로 대체 합니다. 감사합니다. 

계속 읽기

아빠가 되었습니다.

어제 저녁 36시간의 진통끝에 3.8kg의 소중한 아들을 얻었다. 아래 사진은 태어난지 24시간이 넘어서 찍은 사진인데 엄마 뱃속에서 이발까지 하고 나왔나 할 정도로 머리 정돈이 잘 되어 나왔다. 예만 보면 왜 마시마로 생각이 나는지 모르겠다. 쩝~ 결혼이라는 경험과 아이를 낳는다는 경험은 비슷한 범주 내의 경험이지만 무엇보다 아이를 낳고 키우는 경험은 그동안의 나를 돌아보는 중요한 계기가 되는거 […]

계속 읽기