RNN을 이용한 한글 자동 띄어쓰기

필자가 한글자동띄어쓰기를 처음 R로 구현한 결과에 대한 링크를 참고하면 한글 자동띄어쓰기가 어떠한 방식으로 구현되는지 기초적인 부분을 알 수 있을 것이다. 개인적으로 한글 텍스트 분석에서 띄어쓰기는 생각보다 중요한 부분을 차지하고 있다고 생각한다. 이 부분이 잘 되지 않는다면 이후의 다양한 한글분석 퀄리티에 큰 영향을 끼질 수 있기 때문이다. KoNLP 역시 한글 자동 띄어쓰기 모듈이 있기는하나, 매우 조악한 […]

계속 읽기

rOpenSci Text Workshop 참석 후기

이틀간의 워크샵을 마치고 가족과 함께 아주 맛있는 저녁 만찬을 먹고 다음날 아침 서울행 비행기에 올랐다. 이번 워크샵을 통해 한글의 전산처리 이슈에 대해서 많은 개발자들과 논의할 수 있었다는 것에 큰 보람과 할일에 대한 부담을 느끼고 돌아왔다. 다만 내가 혼자만의 시간을 통해 기여를 얼마나 할 수 있을지는 미지수지만 말이다.

계속 읽기

rOpenSci Text Workshop 참석차 런던에…

rOpenSci Text Workshop에 참석하기 위해 가족과 영국에 왔다.     이 워크샵은 올 연초에 초대를 받아 Europian Rearch Conceil의 펀딩으로 숙박과 항공료를 제공받아 오게 되었다. 무엇보다 변방의 언어인 한글에 대해서 관심을 가지고 초청해준 관계자 분들에게 감사의 마음을 전하고 싶다. 이 워크샵의 목적은 R을 기반으로 하는 텍스트 분석 패키지들의 개발자들이 모여 서로의 경험을 공유하고 추후 협력의 […]

계속 읽기

R TensorFlow 코드 깃헙 공개

딥러닝을 공부하는 가장 좋은 방법은 몇몇 대표적인 모형을 직접 코드로 작성해보고 모델링을 해보는 것이다. 최근에 많은 책들이 책을 출간하기 전에 코드를 깃헙에 공개하고 있는데, 이들 책 중에서 하나를 골라서 R로 코드를 구현하는 작업을 틈틈이 해왔다. 이 작업이 다소 번거로운건 Python코드와 R코드를 모두 잘 이해하고 구현해야 된다는 것이다. 다행히 Python에 대한 구현 경험이 있어서 큰 문제가 […]

계속 읽기

딥러닝 머신 그리고 TensorFlow R word2vec 코드 구현/모델링

TensorFlow Life 최근 TensorFlow를 팀에서 주로 사용하면서 이런저런 내부 프로젝트를 진행하고 있고, 과거에 보지 못했던 성과도 볼 수 있었으며, 이런 도구 사용과 경험을 통해 무엇보다 1년 전과는 문제를 바라보는 관점이 달라졌다는 것을 깊히 실감할 수 있었다. 이 때문에 거의 매일매일 새로운 경험을 하는 셈인데 그러면서 알고리즘에 대한 더 깊은 이해를 하게 되는거 같다. 과거 모든 […]

계속 읽기

TensorFlow with R

최근 Python이 데이터 분석 및 머신러닝에서 매우 좋은 도구로 인지되는 가장 중요한 역할을 한 부분은 딥러닝 기술을 리딩하고 있는 코어 랭귀지라는 측면이 가장 크다. 그 중심에는 TensorFlow가 있을 것이다. 필자의 경우 MXNet기반으로 몇몇 딥러닝 모형을 만들었고, 그중 몇몇은 실제 중요한 모델로서 역할을 잘 수행하고 있다. 물론 MXNet을 사용한 가장 중요한 이유는 R을 지원하는 몇 안되는 […]

계속 읽기

2016년 결산

2016년은 연말 회식도 그다지 많지 않아 2015년만큼이나 정신없이 지내지 않은 것 같다. 아마도 최근 최순실 사태 및 여러 마무리 되지 않은 사회적 이슈와 더불어 개인적으로도 마무리해야 되는 것들에 대한 정리로 바쁘게 연말이 지난 것 같다. 그래도 한해 소회 정도는 블로그에 올리는게 연례 행사인지라 간단하게 정리하고자 한다.   가족 두 아이의 아버지로서 그리고 한 여자의 남편으로서 […]

계속 읽기

KoNLP v.0.80.0 버전 업(on CRAN now)

KoNLP v.0.80.0 릴리즈 on CRAN 3년 5개월만의 업데이트다. 금번 업데이트에서 가장 큰 변화는 기존 36만에서 약 120만 형태소 사전을 탑재했다는 것이고, 이들 사전을 사용자들이 원하는 형태로 사용할 수 있게 하는데 방점을 두었다. 총 66개의 카테고리 사전을 보유하고 있으며 사용자들의 분석 대상에 맞게 카테고리 사전을 선택해 조합하여 사용할 수 있게 하였다. 추가 제공 사전 정보 : […]

계속 읽기

예측 모형에서의 클래스 불균형(class imbalance) 문제

최근 필자가 논문 리딩을 하는 와중에 클래스 불균형 문제(예측 대상이 되는 부류의 비율이 현저히 달라 생기는 문제)에 대한 논문을 보게 되면서 잠시 이쪽 방향에 대한 고민을 할 기회가 있었다. 실무적으로 많은 예측 업무가 몇개의 클래스들이 심하게 불균형된 상황에서 진행되다 보니 습관적으로 major class에 대한 under sampling을 통한 50:50 학습셋 비율을 맞추는 방향으로 업무를 진행했던게 사실이다. […]

계속 읽기