지난 2월 온전히 1개월을 모두 뉴질랜드 가족여행에 쏱아 붓고 있던 중 뉴질랜드 푸카키 호수 마운트 쿡 빙하 아래 있던 (전화도 잘 터지지 않던)오지 캠핑장에서 작은 메일을 받았다. DMLC에 초대를 하고 싶다는 메일이었다. 호수 근처 카페에 올라 찍은 사진 DMLC(Distributed (Deep) Machine Learning Community ) DMLC는 대표적으로 데이터 사이언스를 한다면 알고...
작년부터 1년엔 한번씩 Text Analysis Developers' Workshop에 참석을 하게 되었고 작년 런던 정경대에서의 워크샵 참석 이후 NYU의 워크샵에 다시 초대되었다. 워크샵 참석을 위한 숙박비 및 비행티켓 등은 NYU와 rOpenSci에서 펀딩을 받았다. 기간동안의 일비, 로밍 비용은 SK Telecom에서 지원해주었다. 세계적으로 많이 쓰이는 텍스트 분석 오픈소스 개발자들을 대상으로 초대가 이루어 졌고, 초청받은...
형태소 분석 이전에 문자열의 정상 유무는 이후 분석 품질에 지대한 영향을 미친다. 최근 음성인식 정확도가 높아짐에 따라 많은 음성데이터가 Text로 변환되고 분석되기 시작했는데, 이를 위해 잘 동작하는 띄어쓰기 엔진은 텍스트 분석에서 거의 필수적인게 되어 버렸다. 또한 트위터나 페이스북의 사용자 생성 데이터를 분석하기 위해서 일종의 정규화 작업이 필수이며 양질의 띄어쓰기 엔진...
KoNLP v.0.80.0 릴리즈 on CRAN 3년 5개월만의 업데이트다. 금번 업데이트에서 가장 큰 변화는 기존 36만에서 약 120만 형태소 사전을 탑재했다는 것이고, 이들 사전을 사용자들이 원하는 형태로 사용할 수 있게 하는데 방점을 두었다. 총 66개의 카테고리 사전을 보유하고 있으며 사용자들의 분석 대상에 맞게 카테고리 사전을 선택해 조합하여 사용할 수 있게 하였다....