도메인 전문가 혹은 머신러닝 전문가?

Strata 컨퍼런스에서 있었던 논쟁중에 하나로 위 제목과 같은 내용의 대화가 우리가 익히 알고 있는 사람들에 의해서 논의 되었는데, 그 결론이 참으로 기억해 둘만해서 올려본다.   the data science debate: domain expertise or machine learning?   debator들은 아래와 같다.   Drew Conway, Ph.D. Candidate at NYU, Data Scientist at IA Ventures  DJ Patil, Data Scientist in […]

계속 읽기

패턴인식 및 기계학습 겨울학교 참가 후기

원래 최근 들어서 머리가 굵어져서 그런지 어딜 참석해도 후기 같은걸 잘 안 쓰는데, 후기를 쓰고자 한다. 2012년 2월 23일 ~ 25일까지 서울대학교에서 있었던 패턴인식 및 기계학습 겨울학교 후기이다. 일단 올해 들어서 6회에 접어드는 겨울학교인데, 처음 참석하는 거라서 성격을 잘 모르고 왔구나 하는 느낌이 많이 들었다. 커리큘럼 자체가 일반적인 제목들이라서 안심하고 갔는데, 패턴인식 개론서에 나온 정도의 […]

계속 읽기

Machine Learning for Hacker

  Machine Learning for Hacker 컴퓨터 서적 전문 출판사에서 통계학을 넘어서 기계학습까지 넘보고 있구나. 물론 오라일리에서 나온 programming collective intelligence 가 선구자 적인 역할을 하긴 했지만 이제는 R언어로 케이스 스터디 책이 나왔다. 어제 출간이 되었던데 사파리에서 올라와 있어서 몇몇 챕터를 보고 바로 결재 처리를 해버렸다(pdf로 보기도 힘들어서…). 이런 데이터 분석 류의 책은 툴을 설명하기 보다는 […]

계속 읽기

R로 만들어본 자동 띄어쓰기 알고리즘

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 […]

계속 읽기

패턴인식 및 기계학습 겨울학교

http://bi.snu.ac.kr/PRMLWS2012/ 올해는 꼭 가보려고 정보과학회 홈페이지를 들락거렸는데, 다행히 찾아서 참석할 수 있을듯 하다. 전체 알고리즘들을 리뷰한다는 마음으로 임해야 겠다.   혹여라도 블로그에 오시는 분들 중에서 관심이 있으신분이 있을듯 해서 올려본다.

계속 읽기

7th ACC 발표자료 공유

금일 zdnet에서 개최하는 ACC 컨퍼런스에서 발표를 했으며 약속대로 발표자료를 공유하고자 한다. 처음으로 발표에 대한 호응을 발표하면서 피부로 느낄 수 있었다(발표중에 ppt를 사진찍으시는 분들까지 있었으니…). 오늘 얻은 교훈은 다른  어떤 곳에서도 얻을 수 없는 경험들을 공유하는 게 가장 좋은 발표 주제 접근 방법이라는 생각을 해본다. 물론 내가 공유 가능한 범위에서 이지만… 처음 어떤 것을 핵심 주제로 […]

계속 읽기

텍스트 마이닝을 통한 SNA

최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 […]

계속 읽기

R Hangul toy speller

이래저래 1시간 정도 걸려서 toy 한글 스펠러를 만들어 봤다. 약 50줄정도 되는 아주 간단한 코드로 만들어 본건데, KoNLP의 두가지 핵심 함수를 사용하고 KoNLP 패키지에 포함된 한나눔 분석기 시스템 사전을 활용했다. 다른 핵심 함수로 Edit Distance 계산을 위한 함수가 있는데, 이것은 직접 구현을 하려다가 R cba 패키지에 너무 구현이 잘 된 함수가 있어서 그것을 사용했다. 이 […]

계속 읽기

Pagerank on R cran packages

I’d been testing with R and Python what the page rank score on each R packages. Firstly, I need to scrape all package description pages and then parsing section “Depends”, “Imports”, “Reverse Depends” to know relation between packages. I was using Python with scrapemark for convenient.   This is “scrape.py”(no code optimization for easy understanding). […]

계속 읽기