from __future__ import dream

페이스북 Data Scientist들이 어떻게 일하는가?

작성일자 2011년 09월 19일 고감자님이 작성

데이터 과학이란? – 미래는 데이터를 제품화하는 회사와 개인에게 달려있다. 전부터 번역하고 싶었던 글인데, 누군가 번역을 잘 해줘서 링크 걸었다. 특히 아래 대목은 페이스북의 데이터 과학자들이 어떤 방식으로 일하는지 아주 간단하고 명료하게 보여준 글이 아닐까 한다. …언제든, 팀원은 파이썬으로 다단계 처리 파이프라인을 작성하고, 가설 시험을 설계하며, R을 가지고 데이터 샘플의 회귀분석을 수행하고 데이터 위주의 제품이나 […]

계속 읽기

(월간 마소) Rhipe 예제 코드

작성일자 2011년 09월 07일 고감자님이 작성

이번달(2011.09) 월간 마이크로소프트에 기고했던 R로 하는 Big Data분석의 Rhipe 예제 코드에 퍼포먼스 문제가 있어서 개선된 코드를 올려본다. Rhipe의 아키텍처를 살펴볼 시간이 없었는데, 같은 회사분께서 고맙게도 구동 방식을 자세히 설명해줘서 코드 튜닝을 할 수 있었던거 같다. 원본 예제코드가 세 노드에서 6시간에 걸쳐 map/reduce를 한다는 것을 확인 했던 게 원고 데드라인이 지난 후였었는데, Rhipe의 구동 방식을 모르고서는 […]

계속 읽기

국내에도 R 통계분석 시장이…

작성일자 2011년 09월 03일2025년 02월 07일 고감자님이 작성

오늘 아침에 facebook 메시지를 통해서 알았는데, 월간 마소 빅 데이터 연재에서 잠시 소개했던 Revolution Analytics의 R 상용버전의 한국 진출 소식을 접할 수 있었다. 생각보다 상당히 빠른 행보인데, 아무래도 국내 메이저 제조업체가 R을 염두에 두고 있는 관계로 진행이 빨리 된 거 같다는 생각을 해본다. R은 분석 툴로서 가치를 가지고 있고 이를 기반을 어떤 가치를 고객에게 제공할지는 […]

계속 읽기

(월간 마소 연재) R로 하는 Big Data 분석

작성일자 2011년 09월 01일 고감자님이 작성

1회에서는 R 기본 문법, 2회에서는 R로 하는 멀티코어 병렬 프로그래밍에 대해서 간단하게 살펴 보았다. 이번 회에서는 R로 빅 데이터를 분석하는 방법을 설명할 예정이다. 일단 왜 R에서 빅 데 이터 분석이 힘든지에 대해서 간략하게 설명을 하겠고, 이를 극복해 분석하기 위해서 몇 가지 패키 지를 활용하는 방법을 소개하겠다. 마지막 연재를 마치고 원고를 공개한다. 아마 어제 오늘 […]

계속 읽기

데이터가 스스로 말을 하게 하라

작성일자 2011년 08월 31일 고감자님이 작성

수많은 데이터가 쌓이고 사라지고, 가치가 있을것 같지만 시간을 들여 귀 기울여 보지 않는 그런 수많은 로그들은 벙어리로 살다가 존재감 없이 사라진다. 그 데이터들의 목소리를 듣기 위해서는 새 이름을 만들어주고 애정을 가지고 들여다 보는 ‘시간’이 필요하다. 어린왕자에서 말하는 그런 서로 길들여지는 과정이 필요하다는 것이다. 그런 과정을 거쳐 서로 익숙해 지는 시간을 보냈을 때 데이터는 스스로 […]

계속 읽기

R을 빨리 익히기 위해서는…

작성일자 2011년 08월 31일 고감자님이 작성

R을 처음 배우고 싶어하는 분들이 가장 어려워 하는 이유는 R을 단순히 일반적인 프로그래밍 언어로 접근하기 때문이 아닌가 한다. 따라서 언어를 이해하기 위해 통계나 데이터 마이닝 공부를 병행하는 것을 추천한다. R을 가장 잘 이해하기 위해 개인적으로 가장 추천하는 방법은 언어 문법을 익히고 관련 기초 통계를 R을 기반으로 실습해 보는 것이다. 그리고 마지막 단계로 kaggle이나 CrowdANALYTIX와 같은 […]

계속 읽기

구글이 여러분들의 이북을 인식하게 하기 위해 알아야 될 것들 – 세가지 SEO 팁

작성일자 2011년 08월 08일 고감자님이 작성

제공 : 한빛 네트워크 저자 : DC Denison 역자 : 전희원(고감자) | https://freesearch.pe.kr 원문 : Getting Google to notice your ebook 이제 구글이 그들의 이북 스토어(ebook store)를 오픈했으니 남은 건 출판업자나 저자들이 약간의 SEO(search engine optimization, 검색 엔진 최적화)를 배워볼 때가 된 거 같다. 만일 여러분들이 신발이나 핸드폰을 온라인으로 판매한다면 이미 SEO에 친숙할 것인데, 친숙하지 […]

계속 읽기

월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

작성일자 2011년 08월 01일 고감자님이 작성

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 […]

계속 읽기

성적 그리고 새 학기 계획

작성일자 2011년 07월 27일 고감자님이 작성

공식적인 성적이 발표 되었고, 말만 장학생이라는 것에 위안을 해야 될 정도의 장학금이 나오는 성적 장학금을 받았다. 그리고 오늘 새학기 계획중에 가장 중요한 계획인 수강신청을 완료했다. 항상 내 자신을 극단으로 몰아서 잘 할 수 있을지 실험하는 실험정신이 투철한 관계로 무려 출석 수업과목을 다섯과목을 신청했고, 그나마 널널하게 자리잡고 있던 교양과목까지 모조리 전공과목으로 몰아 넣었다. 대학원때도 그랬지만 성적이 […]

계속 읽기

3학년 1학기를 보내면서

작성일자 2011년 07월 18일 고감자님이 작성

항상 학기를 보내면서 후회가 드는 부분이 한 두가지가 아니지만 이번에도 역시 예외는 아닌거 같다. 학기 중반에 교수님이 회사 다니면서 공부하기 힘드니 이번 학기는 “통계학 개론”과 “통계 패키지”를 중심으로 하라고 하셨는데, 모든 토끼를 다 잡으려 하다보니 “통계 패키지”쪽은 좀 소홀했던거 같다. 사실 통계 패키지 과목은 지난 년도 시험 문제 풀어보고 너무 쉬워서 신경을 거의 안쓰다 시피 […]

계속 읽기