고감자 on 1월 13th, 2012

I’d been testing with R and Python what the page rank score on each R packages. Firstly, I need to scrape all package description pages and then parsing section “Depends”, “Imports”, “Reverse Depends” to know relation between packages. I was using Python with scrapemark for convenient.   This is “scrape.py”(no code optimization for easy understanding). [...]

Continue reading about Pagerank on R cran packages

데이터 과학이란? – 미래는 데이터를 제품화하는 회사와 개인에게 달려있다. 전부터 번역하고 싶었던 글인데, 누군가 번역을 잘 해줘서 링크 걸었다. 특히 아래 대목은 페이스북의 데이터 과학자들이 어떤 방식으로 일하는지 아주 간단하고 명료하게 보여준 글이 아닐까 한다.   …언제든, 팀원은 파이썬으로 다단계 처리 파이프라인을 작성하고, 가설 시험을 설계하며, R을 가지고 데이터 샘플의 회귀분석을 수행하고 데이터 위주의 제품이나 [...]

Continue reading about 페이스북 Data Scientist들이 어떻게 일하는가?

고감자 on 3월 17th, 2011

인터넷에서 이런 저런 자료들을 찾아보면서 메모를 해본다. 메모리보다 큰 데이터를 다루기 위해서 가장 편리한 툴은 역시 SAS라고 한다. 어떤 사용자는 20GB의 데이터를 가지고 분석하는데 흡사 20MB의 데이터를 가지고 처리하는것과 별반 다를게 없는 퍼포먼스를 보여준다고 한다.  그런데 20GB보다 큰 데이터는 SAS로도 힘들다고 한다.   만일 그것보다 큰 데이터라면 R과 Hadoop이 결합된 Rhipe라는 프로젝트가 도움이 될거 같다는 [...]

Continue reading about 대용량 데이터 마이닝 메모

고감자 on 2월 9th, 2011

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 [...]

Continue reading about 이름만으로 성별 구분

고감자 on 11월 18th, 2010

최근에 Buffalo NAS 장비 하나를 구매했다. 사실 사진 및 동영상 저장 용도로 쓸라고 했는데, 아직 그 용도로 활용 보다는 파일 공유 및 웹서버 설정해서 Django 코드 테스트 해보는데 사용 하고 있는 중이다. 이래저래 많은 시행 착오 끝에, 머신 ssh 로그인을 외부에서도 가능하게 만들어 두었고, 기본적으로 사용할 수 있는 BitTorrent 웹 클라이언트까지 외부 접속이 가능하게 오픈해 [...]

Continue reading about Buffalo NAS WSL/R1 이런 저런 메모들