오늘 발표할 제 논문을 공개합니다.

본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 a comment spam filter system based on inverse chi-square using of co-occurrence feature between comment and blog post   초록 최근 대표적인 1인 미디어의 형태인 블로그는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구나 글을 쓸 수 있다는 […]

계속 읽기

다음-라이코스 개발자 컨퍼런스

다음-라이코스 개발자 컨퍼런스가 있었구나.. 사진으로만 봤을땐 그저 그랬는데… 세이하쿠님 블로그를 보면서 대강의 세션 내용을 보니 약간 아쉽다는 생각도 든다. 내가 관심을 두는 분야의 세션이 상당히 많아서 관심있는 그들과 대화하는것만으로도 설랠수 있을거라는 생각을 해본다. 이때 말씀하신 석종훈 CEO님의 말씀대로 개발자 나름은 각각의 개별 브랜드라는 말씀에 전적으로 동의한다.이는 자칫 굉장히 아름답게 들릴지 모르겠지만 개인만의 브랜드라는 말은 개인지 […]

계속 읽기

10월 이달에는….

10월 이달에는 공적이든 사적이든 해야될 것들이 상당히 많다.사뭇 작년 10월을 지내는듯 하다. 12,13일 양일간 회사에서는 출장명목, 학교에서는 학술대회 발표하러 가는지라 발표 자료 준비하는데 여념이 없다.(ppt 발표 포멧을 회사걸로 해야할지 학교걸로 해야할지 잠시 고민했었다. ^^;) 이달 마지막 주에는 학위논문 마감이 있어서 그 준비도 만만치 않구나. 야후 코리아 10주년 행사로 Hack Day를 한다고 하는데 이것도 뭔가 도전해볼 […]

계속 읽기

팀에서 함께 일하시던 분의 유학기…

야후에서 같은 팀에서 함께 일하시던 과장님의 유학기를 블로그를 통해서나마 지켜보고 있다. 블로그를 보면서 느끼는건 이분 정말 많은 결심을 하고 가신거 같다는 생각을 먼저 해본다.그곳에서의 생활이 한국에서보다 경제적으로는 힘들지 모르겠지만 실제 나의 관점에서 보자면 정말 부럽다는 생각이 먼저 든다. 내가 예전에 대학원 생활을 블로그에 올리면서 스스로 동기부여를 찾은것처럼 흡사 그런 느낌을 블로그를 읽으면서 많이 느낀다. 사람이 […]

계속 읽기

tinyURL.com

오늘도 Language 관련 포럼을 돌아보다가 쓸만한것을 발견했다. tinyURL.com이라는 곳인데 사실 이런 서비스가 야후 사내에서는 이미 쓰고 있어서 내부적으로만 편리하게 쓰던 참이였다.개발자들간에 url을 공유할때 너무 길어서 url을 줄이는 경우 사용했던 기능이였는데 이런게 외부에도 있다는걸 오늘 알았다. 나의 경우 어느때 이런 기능이 필요하느냐 하면 모임장소 공지를 할때 야후 거기에서 url을 따서 장소 공지를 주로 하는 편인데 url이 […]

계속 읽기

matplotlib in Python

전에 gnuplot이라는 것을 updong님의 추천으로 잠시 써본 경험이 있다. 그러다 책을 보는데 상당히 괜찮은 그래프 라이브러리를 발견했는데 그것으로 그래프를 그리는것을 보고 새삼 놀라서 좀 더 자세히 보고 있다. matplotlib라는 놈인데 물론 python이라는 것과 결합된 라이브러리 형식의 것이라서 python언어에 종속적이지만 python에 익숙하다면 금새 사용할 수 있을거라 생각한다. 나이별 커플 매치도를 나타내는 데이터를 가지고 그래프를 그려봤다. 파란색은 […]

계속 읽기

현실 세계의 기준들을 어떻게 하면 숫자로 표현할 것인가?

요즘 고민하는 화두다. 말 그대로 Data Mining의 전처리 단계라고 볼 수도 있는데, 사실 collective Intelligence라는 책을 보면서 다시 한번 놀랐던것이 현실적인 수치적 문제(돈, % 등) 뿐만아니라 다른 것들, 예를 들어서 성별, 취미 등 의 그런 데이터를 어떻게 수치화 해서 표현하고 그것들의 의미를 목적에 맞게 모델링하는 과정을 보면서 꼭 이 부분에 대해서는 다양한 방법론을 공부해야 겠다는 […]

계속 읽기

19회 한글 및 한국어 정보처리 학술대회 프로그램 계획과 나의 동선

학술대회 프로그램 계획이 나왔다. 그런데 내 포스터 발표 시간에 내가 듣고 싶은 주제가 같이 진행이 되게 되었다. ㅡㅡ;일단 내 논문과 같이 진행되는 “신경망을 적용한 온톨로지 기반의 Focused Crawling”을 좀 보고.. “VNA 집합을 이용한 뉴스기사의 중요문장 추출” 이거하고 “날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류” 이고.. 토요일날에 하는 “뉴스 기사의 문장 요약” 확인후 가장 […]

계속 읽기

논문 실험에 대해서…

사실 논문 준비를 위해서 가장 먼저 했었고 가장 많은 시간을 투자한것이 주제선정이였다. 회사를 다니면서 학교를 다니면 주제를 선정하기 쉬울 경우가 있다. 물론 회사의 product를 가지고 개인이 논문으로 제출을 하는건 윤리상 문제가 있을 수 있겠지만 사측의 동의를 얻으면 이처럼 좋은 주제가 없을 정도다. 많은 분들이 회사의 연구주제를 가지고 실제 논문을 쓰기도 하지만 나의 경우에는 약간 힘든 […]

계속 읽기