색인 압축 또 발표…

이번에 색인 압축에 대해서 사내 스터디를 하고 있어서 오늘 준비해서 발표를 했다. 반응이…. 재밋다는 반응 반…. 너무 어렵다는 반응 반… 1비트 줄일라고 하는 노력이 자린고비 같다는 반응 전부. ㅋㅋ 하지만 퇴근할때까지 물어보시는 분들이 있을 정도로 다들 열정은 좋아서 기분은 좋았다. 내가 미처 짚어보지 못한 부분에 질문을 하셔서 나도 같이 고민하면서 생각해볼 수 있어서 나름 얻는 […]

계속 읽기

Machine Learning 기술을 실무에 쓸때 생기는 오해들

현재 Rule 기반의 분류기나 하드코딩을 하면서 어떤 분류 작업을 하는건 이미 과거의 기술에 지나지 않아 보인다. 새로이 기계학습(Machine Learning)이라는 분야가 각광을 받으면서 두가지 기술을 병행해서 실제 성능을 많이 끌어올리는 사례들을 많이 볼 수 있다. 제목 그대로 이제는 데이터의 학습에 기반한 어떠한 프로세스를 행하는게 기본이 되어 버렸다. 왜냐면 데이터는 복잡해지고 로그도 다양해 지는데 그곳에서 객관적인 패턴을 […]

계속 읽기

환경의 영향을 받는다는것.

사람은 환경의 영향을 받는다는데 전적으로 동의한다. 2년전에는 검색엔진 개발자 모임 그리고 학교에서 사람들을 만남으로서 많은 영향을 받았다고 한다면, 최근에는 다니는 회사에서 영향을 많이 받고 있다. 내가 다른 사람들에게도 영향을 주고 있다는것을 느끼고 있으며, 또한 나도 다른 이들에게 좋은 영향을 받고 있다. 국적은 다르지만 다른 이의 소스코드 한줄에 담긴 의미를 찾다보면 상대방의 성격도 파악할 수 있고 […]

계속 읽기

야후 코리아 Hack Day 2007 후기

후기 사진들은 여기, 저기서 많이 볼 수 있다. 이런 사진을 두번씩 올리려면 나중에 블로그 검색에서 중복처리 하기 힘드니 일단 사진은 올리지 않겠다. ㅋㅋㅋ 역시나 정진호 과장님이 책임 및 진행을 하셔서 정말 세계 어느 나라의 Hack Day 만큼 재미났던거 같다. 물론 다른 나라들의 Hack Day 이야기는 블로그를 통해서 간접적으로만 접할 수 있지만 말이다. 24시간 안에 동작하는 […]

계속 읽기

야후 코리아 Hack Day 시작!

해커들을 위한 간식…. 야후 코리아 10주년 기념으로 방금전에 사내 Hack Day를 시작했다. 얏호~~~ Hack Day 참여하는 분들의 책상 위에는 풍선이 달려 있다. 이제 24시간 안에 뭔가를 만들어야 하는데 기존에 만들던 덧글 스팸 classifier를 조금 다듬에서 시뮬레이션 하는것으로 마쳐야 겠다. 이것 때문에 웹 인터페이스를 만들라고 Django를 이용해 apache 서버 셋팅하고 해서 클라이언트 환경을 만들었고 실제 서버에서 […]

계속 읽기

알고리즘 문제 풀기 습관 들이다.

알고리즘 트레이닝 북 이라는 책이 있다. 한 3년전 쯤에구입해서 앞에 몇 문제만 풀어보고 박아 두었었다.그러다 요즘 인생에 도움이 될만한 좋은 습관하나 들여 볼라구 여자친구와 함께 이 책으로 문제풀이를 하고 있다. 구입했을 당시에는 문제를 보고 정말 어렵게 풀었었는데, 지금 보니 상당히 풀만하고 재미있다. 그리고 공식 사이트에서 문제 풀이 결과도 확인할 수 있다.꼭히 책을 살 필요가 없다는 […]

계속 읽기

Google Developer Night 2007 참관 후기

Google Developer Night 2007에 다녀왔다. 사실 이런저런 상황으로 인해 늦는 바람에 갈까 말까 했지만 공짜 저녁의 유혹에 빠져 가고 말았다. 그리고 예전부터 구글 개발자 행사들이 어떻게 진행되고 구글의 문화는 어떤 느낌일까 굉장히 궁금했던 찰라여서 그런 궁금증 때문에 찾아 갔다. 가서 많은 분들을 만났다. 예전 직장 동료분들부터 해서 학교분들 그리고 기자님들까지… 구글의 저녁 대접은 생각보다 실망이였지만 […]

계속 읽기

한글 및 한국어 정보처리 학술 대회 논문 발표 후기

일단 구술발표로 정해졌다가 우여곡절끝네 포스터 발표로 되어서 상당히 마음의 부담을 가지지 않고 발표장에 갔지만 수많은 질문에 50분가량의 시간이 어떻게 지나갔는지 모르겠다. 솔직히 학술제에 가본적도 처음이고 포스터 발표 하는것을 관람하는 것이나 발표하는것이나 처음해보는 것이라서 생각지도 못한 난관들이 있었다. 하지만 나름 남는것들이 많은 발표였다. 이때 발표에서 부족한 부분들은 나중에 다음 발표때 중요한 밑거름이 되리라 생각한다. 주제가 독특하고 […]

계속 읽기

19회 한글 및 한국어 정보처리 학술대회에서 생각해본것들..

1. 내가 제안한 동시출현 주제어들에 적절한 coefficient를 주기 위한 학습을 또 다시 시행할 수 있을것이다. 그러니까 베이지언 룰에서 휴리스틱한 값으로 넣었던 값을 구하기 위한 학습 과정이 추가될 수 있겠다. (이런 방법을 설명한 논문이 있다고 한다.) 2. 뉴스(블로그)에서 본문을 크롤링 하기 위한 방법 웹페이지는 본문 이외에 상당히 많은 가비지(?)가 포함되어 있는데 이것들을 크롤링 타임에 제한할 수 […]

계속 읽기