rOpenSci Text Workshop 참석 후기

숙소에서 도보로 17분 거리에 위치한 LSE

LSE의 룸번호가 LG로 시작하는건….. 무엇때문인지는 모르겠다.

전 세계에서 24명이 모여서 R에서 텍스트 분석을 어떻게 하면 효과적으로 수행할지 많이 논의가 이어졌고 대략적인 내용은 이곳에서 해당 워크샵을 주최한 교수가 소개하고 있다. 이런 저런 이야기가 오갔고, 내가 주로 설명한 내용은 한글 오타 교정에 대한 hunspell 패키지 개발자가 물어보는 질문에 답하고 설명하는 것으로 첫날을 시작해 둘째날은 한글 색인어 추출에 대한 기능지원을 stringi에 적용 가능성을 타진하는 것을 계기로 이 기능이 ICU에 들어가면 바로 지원해주겠다는 stringi개발자의 제안을 듣고 이런 이슈까지 만들어 팔로업을 하고 있다. KoNLP의 한글 데이터들을 적절히 사용해 일본어 ICU 토크나이저를 기반으로 간단하게 만들면 어떨까 하는 생각만을 공유하고 워크샵 참석을 마치게 되었다. 그곳 개발자들은 ICU에 한글 토크나이저가 없다는 사실에 매우 놀라는 눈치였는데, 그도 그럴것이 태국문자에 대한 처리 모듈이 있는 상황에 한글 모듈이 단순히 공백을 기준으로 자르는 기능만 있는것은 다소 어이없다는 눈치였다. 물론 단순히 공백을 기준으로 잘라서는 제대로된 분석이 안된다는 부연설명이 필요했지만 말이다.

이 작업은 생각만큼 단순하지 않다. 왜냐면 ICU를 개선하게 되면 이를 사용하는 전 세계의 수많은 텍스트 처리 관련 라이브러리에 영향을 주게 되기 때문이다. 그만큼 신중하게 시간을 투자해서 개발해야 되는 부분이라는 것이며, 개인적으로 그런 시간이 날지는 확신이 서지 않는다. 공공 과제로 띄울 수 있다면 공익적인 측면에서 큰 기여를 할 수 있을 수 있겠다는 생각 정도만 했고, 물론 내년에 초대받을지는 확실하지 않지만 그때 자랑스러운 성과로도 이야기 할 수 있을 거라는 생각도 든다.

개인적으론 kerasR 개발자를 만나본게 좋았는데, 최근 딥러닝에 관심을 가지고 사용하고 하면서 R에서 keras를 잘 사용할 수 있는 패키지가 있었으면 좋겠다 생각하던 시점에 이를 개발해서 공개한 친구가 워크샵에 참석했기 때문이다. 이 친구는 리치몬드 대학에서 딥러닝 강의를 하는 교수인데, 학생들이 좀더 쉽게 딥러닝을 사용하게 할 수 있게 하려고 kerasR을 만들었다는 이야기를 듣고 상당히 감명을 받았다. kerasR의 몇몇 버그를 알려줬는데, 이미 github에서는 다 고쳐놓았다는 말을 듣고 역시나 하는 생각을 했다.(왼쪽 사진은 그와 함께 찍은 사진…)

이 이외에 상당히 많은 부분 느끼고 감동받고 배우고 했지만 이곳에 모든것을 열거하기는 어려울것 같다. 다만 대부분이 학교에 몸담고 있는 교수나 박사과정 학생이고, 또한 이들의 배경이 컴퓨터 사이언스인 경우는 30%도 되지 않는 다는 사실에 매우 놀랐다. 그러니까 사회과학 쪽 연구를 하는 분들이고 이들의 프로그래밍 능력과 지식이 상당했다는 것이다. 정말 세상은 넓고 배울 사람들은 정말 많은거 같다.

이틀간의 워크샵을 마치고 가족과 함께 아주 맛있는 저녁 만찬을 먹고 다음날 아침 서울행 비행기에 올랐다. 이번 워크샵을 통해 한글의 전산처리 이슈에 대해서 많은 개발자들과 논의할 수 있었다는 것에 큰 보람과 할일에 대한 부담을 느끼고 돌아왔다. 다만 내가 혼자만의 시간을 통해 기여를 얼마나 할 수 있을지는 미지수지만 말이다.

이번 영국 가족 여행중 만족스러웠던 장소중에 하나인 bourton on the water

이 글 공유하기:

이것이 좋아요:

Related Post