문서 중복에 대해서 .

문서 중복에 대해서 예전에 Shingle 방법에 대한글을 쓴 경험이 있다. 주로 중복문서의 제거의 Key Issue는 검색 복잡도를 해결하는것이라고 할 수 있다. md5 hash를 이용하는 방법은 O(n)의 복잡도를, Shingle 계열의 방법을 사용하는것은 O(n^2)의 복잡도를 자랑한다. 어느글과 비슷한 글을 찾기 위한 기능을 검색엔진에서 제공한다면 아마도 주로 Shingle을 이용한 여러가지 방법들중에 하나를 사용해서 제공하리라 본다. 하지만 이는 미리 […]

계속 읽기

printf를 쓰지 않고 숫자 출력하기.

“printf를 쓰지 않고 숫자(int형)를 출력하시오!” 얼마전에 모 기업 필기 입사 시험에 나온 코딩 문제다. 그때 이 문제를 딱 보고 ASCII코드 관련 문제구나 하고 생각만하고 다른 문제 푸는데 시간이 많이 소요되었기도 하고 putchar라는 함수명이 정확히 기억이 안나서 그냥 넘어갔던 문제였다. 갑자기 생각이 나서 한번 코드로 구현해봤다. [CODE c]#include <stdio.h>#include <stdlib.h> int powi(int, int); int main(int argc, […]

계속 읽기

검색의 소스가 되는 대상에 대한 이해

요즘 기술적인 부분보다 그냥 생각하는 것들을 블로그에 많이 적고 있다. 형태소 분석이든 검색 모델이든간에… 고전적인 Text 기반의 검색을 이야기 하고 있다. 물론 Text는 검색을 위해서 중간의 인터페이스가 될 수 있다. 인터페이스가 된다 함은 Text가 다루기 쉽고, 현재 정보검색에서 연구분야도 많은 뿐더러 실례로 상당히 많이 때문이다. 얼마전에 동영상 검색을 하는데 음성인식 기술을 이용해서 Text를 추출후 그 […]

계속 읽기

스프링노트

싸이오형님이 오픈마루에 계셔서 스프링노트 초대장을 받을 수 있었다. 보고 처음 느낀것은 ‘정말  편리하겠다’ 라는 생각과, 저기에 뭘 채울까 하는 고민이  들었다. 주된 메모들은 블로그에 하는 편이고, 게다가 논문 세미나 정리는 wiki에 하는편인데… 생각해보니까, wiki의 문서 작성 형식의 자유로움과 블로그의 다이내믹한 사용성 사이에서 많은 고민을 한 흔적이 있는 툴인거 같다. 사용성 측면에서 가깝다면 wiki에 가깝다고 해도 […]

계속 읽기

구글 엔지니어에게 물어본것들

좀 오래(?) 전 이야기를 해보고자 한다. 한때 MapReduce니, GFS니 등 구글 기술에 관심이 많았던 때가 있었는데, 마침 구글직원을 만나서 논문을 보면서 궁금했던 것을 직접 물어볼 기회가 있었다. 질문들이다. 1. GFS에서 서버가 추가될때 데이터 레벨링이 어떻게 이루어 지는가?(논문에 자세한 내용이 나오지 않았다.) 답 : 5년전 페이퍼라서 지금 쓰는 구조와는 많은 차이가 있다. (답변을 하는 사람의 우월감을 […]

계속 읽기

블로그의 질적 수준을 측정하는 방법을 고민중인데…

요즘 가장 고민을 많이 하는 부분이 바로 이 제목과 같은 것이다. 이것때문에 교수님이 추천해주신 Language Model을 공부하였으나.. 영 고민하는 주제와  연결감이 안오는 바람에 좀 다른 생각을 하고 있다. 그렇다면 어느 블로그가 좋은지 나쁜지 사람이 판단하는 기준을 보고 측정할 수밖에 없을것이다. 말하자면 휴리스틱한 방법을 말이다. 휴리스틱은 정말 좋은 방법이지만 어떻게 좋음을 표현하는 문제가 있다. 컴퓨터가 알아듣게 […]

계속 읽기

이제 정리가 되어 갑니다.

지난 한달동안 …. 이랬다. ㅡㅡ; 엄청난 심리적 공황을 경험 했다. 하지만 오늘 저녁에…. 이렇게 편하게 맥주를 마신다. 쉬는 한달동안 저에게 격려해주시고, 관심을 가져준 typos님, 홍모형님, 싸이오형님, 아폴로형님, 박모누님 그리고 저의 여친님 등 많은 분들에게 감사하다고 전했고 이 포스팅을 통해서 또 한번 드리고 싶습니다.기대에 부흥할 수 있도록 열심히 하는 고감자가 되기를 다짐합니다. 그리고 본의 아니게 오해와 […]

계속 읽기

웹 검색에서 크롤링

크롤러 제작으로 검색쪽일을 시작한거나 다름 없으나, 지금은 거의 신경을 안쓰고 있지만, 시간이 가면 갈수록 웹 검색 인프라로서 크롤링 기술의 중요성은 커지는거 같다. 검색에서 크롤링 기술을 가지고 있느냐 아니냐가 검색 랭킹에 대한 펙터 수집을 원하는 대로 할수 있냐 없냐로 판가름 되어버리기 때문이다. 웹 검색, 특히나 그 분야는 링크구조로 되어 있어서 링크 펙터를 고려하지 않고서는 좋은 검색 […]

계속 읽기

이번학기 중점 과목

저번 학기부터 교수님에게 개설해 달라구 노래를 불렀던…. Data Mining 과목이 이번에 학기에 개설이 되었다. 대학원은 실제 과목 이름이 애매할 경우가 있어서 의심이 가는 과목은 되도록 첫 강의 시간에 들어가서 들어봐야 한다. 어제의 과목 이름도 “지능형 실시간 시스템”이였는데, 저번학기에는 Machine Learning 으로 강의를 하셨고, 이번학기는 Data Mining으로 강의를 하신다. 첫 시간부터 Data Mining에서 Spam에 관련된 질문을 […]

계속 읽기

요기조기 기술면접 소감

나름대로 기술면접을 다양하게 봐서 정리를 좀 해볼라구 한다. 전체적 소감으로는 경력이 많아지면 많이질수록 그리고 회사의 name value나 기술 수준이 높으면 높을수록 기술면접의 강도는 높아지는것 같다. 그래서 결국 실력이 없으면 반드시 뽀록이 나게 되어있다. 몇몇 회사는 기술 면접이 거의 형식적이고 질문의 수준도 낮은 회사가 있는 반면. 어떤 회사는 기술적 질문이 내가 요즘 고민하고 예전에 고민했던거, 그러나 […]

계속 읽기