최근 근황
어디를 가든 최근 근황에 대해서 궁금해 하시는 분들이 있어서 이렇게 포스팅을 써보고 있다. 대부분의 “요즘 어떻게 지내고 있어?” 하는 물음에 “관망하고 있다”는 답으로 일관하고 있는데, 아무래도 블로그에 상황에 대해서 업데이트 하는게 좋을거 같아서 올려본다. 이런 저런 이유 때문에 현재 다른 회사를 알아보고 있는 중이고 여러 좋은 분들이 관심을 주셔서 이런 저런 상황이 맞으면 아마도 […]
계속 읽기당신의 나의 뜨거운 감자!
아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 […]
계속 읽기개발자들이 ‘개발 거의 다 끝났다’라고 하는 말은 이제 테스트 해 볼 만한 모듈이 만들어 졌다는 뜻으로 받아들여야 한다. 개발자도 사람인지라 ‘인지편향’의 경향을 지닐 수 밖에 없다. 자신이 만든 기능만을 테스트하고 테스트 케이스도 앞으로 들어올 데이터를 모두 대변할 만한 그런 샘플링 데이터가 아니라, 지극히 편향된 데이터로만 테스트를 하게 된다. 따라서 이전 기능이 모두 잘 돌아가는지 테스트를 […]
계속 읽기Yes24 링크 알라딘 링크 인터파크 링크 교보문고 링크 반디앤루니스 링크 번역의 동기는 이런 데이터마이닝이나 기계학습 관련 응용 기술이 국내에 많이 퍼지길 바라는 의도와 함께, 웹2.0이라는 개념이 나온 후 많은 시간이 흘렀음에도 불구하고 국내에서는 아마존과 같은 좀더 지능화된 웹 사이트가 국내에 등장하지 않음에 대한 원망(?)도 그 동기가 되었던 거 같다. 하지만 그 강한 동기만큼 번역 기간 […]
계속 읽기요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다. 이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 […]
계속 읽기최근에 Buffalo NAS 장비 하나를 구매했다. 사실 사진 및 동영상 저장 용도로 쓸라고 했는데, 아직 그 용도로 활용 보다는 파일 공유 및 웹서버 설정해서 Django 코드 테스트 해보는데 사용 하고 있는 중이다. 이래저래 많은 시행 착오 끝에, 머신 ssh 로그인을 외부에서도 가능하게 만들어 두었고, 기본적으로 사용할 수 있는 BitTorrent 웹 클라이언트까지 외부 접속이 가능하게 오픈해 […]
계속 읽기이번달 인사이트 출판사 리뷰용 도서로 받은 “CODE:코드“에 대한 서평을 올려본다. 처음 이 책을 받아보고 바로 느낀건, 내가 학교에서 가장 흥미를 느끼지 못했던 “컴퓨터 구조”에 대한 책이구나, 하는 생각을 했다. 그러나 이 생각은 초반 몇 장을 읽으면서 사라졌고, 컴퓨터 구조에 대한 책이라기 보다는 컴퓨터에서 사용하는 언어 즉 코드들이 하드웨어로 어떻게 구현이 되는지 여러 코드 체계에 대한 […]
계속 읽기지난 한글날 전남대에서 있었던 22회 한글 및 한국어 정보처리 학술대회 오랄세션에서 발표한 논문이 학술대회 우수논문으로 선정이 되었다는 메일을 받았다. 기대하지도 않았는데… 막상 받아보니 기분은 좋다. 그나저나 이번에 쓴 논문에서 30%의 내용을 추가 해야 된다고 하는데 그럼 또 하나의 논문을 쓰는건가? 여튼 교수님 및 회사분들하고 논의를 해봐야겠다. 어떤게 우수논문이 되는지 보시고 싶은신 분들을 위해 링크를 다시 […]
계속 읽기