KoSpacing : 한글 자동 띄어쓰기 패키지 공개

띄어쓰기는 형태소 분석 이전에 반드시 수행해야 되는 중요 전처리 과정중에 하나이며, 이 때문에 공개된 형태소 분석기에는 일종의 자동띄어쓰기 모듈이 숨겨져 있는 경우가 많다. 하지만 그런 띄어쓰기 엔진의 성능이 대부분 좋지 않아 허울뿐인 경우가 많다. 필자가 만든 KoNLP 역시 그중에 하나였다. 물론 띄어쓰기는 형태소 분석 이전에만 사용하는게 아니다. 띄어쓰기 모듈은 Speech To Text 혹은 음성인식 모듈에서 […]

계속 읽기

딥러닝 한글 자동띄어쓰기 모형 성능 향상 및 API 업데이트

1차 모형과 띄어쓰기 정확도 성능 차이 테스트 셋 1차 모형 2차 모형 세종 코퍼스 94.8% 97.1% 구어체 코퍼스 93.2% 94.3% 성능 측정방식은 코퍼스 내 문장별로 모든 띄어쓰기를 제거하고 넣었을때 올바르게 띄어쓰기가 되는지 여부를 측정한 것이다. 세종 코퍼스 1만 문장, 구어체 코퍼스 3만 문장으로 테스트 했다. 그리고 모형 학습은 박찬엽씨가 공유해준 뉴스 코퍼스 1억 문장 기반으로 […]

계속 읽기

딥러닝 기반 한글 자동 띄어쓰기 API 공개

형태소 분석 이전에 문자열의 정상 유무는 이후 분석 품질에 지대한 영향을 미친다. 최근 음성인식 정확도가 높아짐에 따라 많은 음성데이터가 Text로 변환되고 분석되기 시작했는데, 이를 위해 잘 동작하는 띄어쓰기 엔진은 텍스트 분석에서 거의 필수적인게 되어 버렸다. 또한 트위터나 페이스북의 사용자 생성 데이터를 분석하기 위해서 일종의 정규화 작업이 필수이며 양질의 띄어쓰기 엔진 확보가 점차 중요해지고 있다. 개인적으로 […]

계속 읽기

RNN을 이용한 한글 자동 띄어쓰기

필자가 한글자동띄어쓰기를 처음 R로 구현한 결과에 대한 링크를 참고하면 한글 자동띄어쓰기가 어떠한 방식으로 구현되는지 기초적인 부분을 알 수 있을 것이다. 개인적으로 한글 텍스트 분석에서 띄어쓰기는 생각보다 중요한 부분을 차지하고 있다고 생각한다. 이 부분이 잘 되지 않는다면 이후의 다양한 한글분석 퀄리티에 큰 영향을 끼질 수 있기 때문이다. KoNLP 역시 한글 자동 띄어쓰기 모듈이 있기는하나, 매우 조악한 […]

계속 읽기

R로 만들어본 자동 띄어쓰기 알고리즘

최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 […]

계속 읽기

Text Analysis Developers’ Workshop 2018 참석 후기

작년부터 1년엔 한번씩 Text Analysis Developers’ Workshop에 참석을 하게 되었고 작년 런던 정경대에서의 워크샵 참석 이후 NYU의 워크샵에 다시 초대되었다. 워크샵 참석을 위한 숙박비 및 비행티켓 등은 NYU와 rOpenSci에서 펀딩을 받았다. 기간동안의 일비, 로밍 비용은 SK Telecom에서 지원해주었다. 세계적으로 많이 쓰이는 텍스트 분석 오픈소스 개발자들을 대상으로 초대가 이루어 졌고, 초청받은 사람만 참석 가능한 특징을 가지고 […]

계속 읽기

2016년 결산

2016년은 연말 회식도 그다지 많지 않아 2015년만큼이나 정신없이 지내지 않은 것 같다. 아마도 최근 최순실 사태 및 여러 마무리 되지 않은 사회적 이슈와 더불어 개인적으로도 마무리해야 되는 것들에 대한 정리로 바쁘게 연말이 지난 것 같다. 그래도 한해 소회 정도는 블로그에 올리는게 연례 행사인지라 간단하게 정리하고자 한다.   가족 두 아이의 아버지로서 그리고 한 여자의 남편으로서 […]

계속 읽기

패턴인식 및 기계학습 겨울학교 참가 후기

원래 최근 들어서 머리가 굵어져서 그런지 어딜 참석해도 후기 같은걸 잘 안 쓰는데, 후기를 쓰고자 한다. 2012년 2월 23일 ~ 25일까지 서울대학교에서 있었던 패턴인식 및 기계학습 겨울학교 후기이다. 일단 올해 들어서 6회에 접어드는 겨울학교인데, 처음 참석하는 거라서 성격을 잘 모르고 왔구나 하는 느낌이 많이 들었다. 커리큘럼 자체가 일반적인 제목들이라서 안심하고 갔는데, 패턴인식 개론서에 나온 정도의 […]

계속 읽기

About Me

안녕하세요, 고감자입니다. LLM + AI 제품 개발을 전문으로 하는 모델러이자 개발자입니다. 현실 문제를 정의하고 이것을 어떻게 하면 AI로 풀 수 있는지 디자인하고 구현하고 튜닝하는걸 주로 하고 있습니다. 리더 직무를 맡은 이후 모델 튜닝 경험이 줄어 손에 꼽지만 요즘 입으로 튜닝(프롬프트 튜닝)하는 게 대세가 된 걸 한 켠 다행이라 생각하고 있습니다.^^ AI가 앞으로 우리에게 어떠한 영향을 […]

계속 읽기