rOpenSci Text Workshop 참석 후기
이틀간의 워크샵을 마치고 가족과 함께 아주 맛있는 저녁 만찬을 먹고 다음날 아침 서울행 비행기에 올랐다. 이번 워크샵을 통해 한글의 전산처리 이슈에 대해서 많은 개발자들과 논의할 수 있었다는 것에 큰 보람과 할일에 대한 부담을 느끼고 돌아왔다. 다만 내가 혼자만의 시간을 통해 기여를 얼마나 할 수 있을지는 미지수지만 말이다.
계속 읽기당신의 나의 뜨거운 감자!
이틀간의 워크샵을 마치고 가족과 함께 아주 맛있는 저녁 만찬을 먹고 다음날 아침 서울행 비행기에 올랐다. 이번 워크샵을 통해 한글의 전산처리 이슈에 대해서 많은 개발자들과 논의할 수 있었다는 것에 큰 보람과 할일에 대한 부담을 느끼고 돌아왔다. 다만 내가 혼자만의 시간을 통해 기여를 얼마나 할 수 있을지는 미지수지만 말이다.
계속 읽기rOpenSci Text Workshop에 참석하기 위해 가족과 영국에 왔다. 이 워크샵은 올 연초에 초대를 받아 Europian Rearch Conceil의 펀딩으로 숙박과 항공료를 제공받아 오게 되었다. 무엇보다 변방의 언어인 한글에 대해서 관심을 가지고 초청해준 관계자 분들에게 감사의 마음을 전하고 싶다. 이 워크샵의 목적은 R을 기반으로 하는 텍스트 분석 패키지들의 개발자들이 모여 서로의 경험을 공유하고 추후 협력의 […]
계속 읽기딥러닝을 공부하는 가장 좋은 방법은 몇몇 대표적인 모형을 직접 코드로 작성해보고 모델링을 해보는 것이다. 최근에 많은 책들이 책을 출간하기 전에 코드를 깃헙에 공개하고 있는데, 이들 책 중에서 하나를 골라서 R로 코드를 구현하는 작업을 틈틈이 해왔다. 이 작업이 다소 번거로운건 Python코드와 R코드를 모두 잘 이해하고 구현해야 된다는 것이다. 다행히 Python에 대한 구현 경험이 있어서 큰 문제가 […]
계속 읽기TensorFlow Life 최근 TensorFlow를 팀에서 주로 사용하면서 이런저런 내부 프로젝트를 진행하고 있고, 과거에 보지 못했던 성과도 볼 수 있었으며, 이런 도구 사용과 경험을 통해 무엇보다 1년 전과는 문제를 바라보는 관점이 달라졌다는 것을 깊히 실감할 수 있었다. 이 때문에 거의 매일매일 새로운 경험을 하는 셈인데 그러면서 알고리즘에 대한 더 깊은 이해를 하게 되는거 같다. 과거 모든 […]
계속 읽기최근 Python이 데이터 분석 및 머신러닝에서 매우 좋은 도구로 인지되는 가장 중요한 역할을 한 부분은 딥러닝 기술을 리딩하고 있는 코어 랭귀지라는 측면이 가장 크다. 그 중심에는 TensorFlow가 있을 것이다. 필자의 경우 MXNet기반으로 몇몇 딥러닝 모형을 만들었고, 그중 몇몇은 실제 중요한 모델로서 역할을 잘 수행하고 있다. 물론 MXNet을 사용한 가장 중요한 이유는 R을 지원하는 몇 안되는 […]
계속 읽기KoNLP v.0.80.0 릴리즈 on CRAN 3년 5개월만의 업데이트다. 금번 업데이트에서 가장 큰 변화는 기존 36만에서 약 120만 형태소 사전을 탑재했다는 것이고, 이들 사전을 사용자들이 원하는 형태로 사용할 수 있게 하는데 방점을 두었다. 총 66개의 카테고리 사전을 보유하고 있으며 사용자들의 분석 대상에 맞게 카테고리 사전을 선택해 조합하여 사용할 수 있게 하였다. 추가 제공 사전 정보 : […]
계속 읽기최근 필자가 논문 리딩을 하는 와중에 클래스 불균형 문제(예측 대상이 되는 부류의 비율이 현저히 달라 생기는 문제)에 대한 논문을 보게 되면서 잠시 이쪽 방향에 대한 고민을 할 기회가 있었다. 실무적으로 많은 예측 업무가 몇개의 클래스들이 심하게 불균형된 상황에서 진행되다 보니 습관적으로 major class에 대한 under sampling을 통한 50:50 학습셋 비율을 맞추는 방향으로 업무를 진행했던게 사실이다. […]
계속 읽기예측 모형 운영의 문제점 Concept Drift 예측 모델링이나 머신러닝 영역에서 쓰이는 용어로서 시간이 지나면서 예측 성능이 달라지는 목적변수의 통계적 특징을 의미함 이런 특징은 시간이 지나면서 예측성능이 점차적으로 떨어지는 부작용을 일으킴 복잡한 사회 현상의 한 단면을 예측하자고 할 경우 사회현상에 대한 모든 변인을 고려해 모델링 하는 것은 불가능하기 때문에 이러한 실제 예측모형을 구축할때 점차적으로 성능이 달라지는 […]
계속 읽기