검색 엔진 개발자에게 OS 커널 프로그램 능력이 필요한 이유?

요즘 리눅스 커널 공부에 한창이다. 대학원에서 OS를 작년에 배운지라. OS에 대한 개념을 그때 확실히 세워둬서 아주 보기가 좋다. 오늘 내내 코드 보고 테스트 프로그램 짜보고 하면서 왜 검색엔진 개발자에게 커널에 대한 개념이 필요한지를 어렴풋이 알았다. (솔직히 두근거리기까지 했다. 실험해보고 싶은 욕구까지해서..) 1. 검색엔진에 최적화된 OS를 구비하기 위함2. 색인시 빈번히 일어나는 파일 쓰고 읽기에 대한 접근성 […]

계속 읽기

goto문에 대한 Dijkstra의 논문을 보며.

리눅스 커널을 공부하다가 커널단에서 goto문이 쓰이는걸 보고, 예전에 모듈을 작성할때 에러처리 부분에서 goto문을 쓰다가 팀장님에게 혼났던 기억이 나서 책에서 소개하는 논문을 한번 봤다. Go To Statement Considered Harmful 최단경로 알고리즘으로 알려진 유명한 다익스트라(Dijkstra)의 논문이다. 이  논문과 관련자료검색을 해보면서 느낀거지만, goto문 자체에 대해서 완전 부정이 아니라는것을 알았다. 내가 이해한 바로는 사람이 코드를 작성할때 절차에 중점을 두고 […]

계속 읽기

인터뷰 글 소개와… 앞으로 백수생활에 대한…

IBM Developerworks에서 전에 인터뷰한 글이 오늘 올라왔다. 3인의 블로거, ‘블로깅과 만남, 자람’을 논하다 여기 보시면 conv2님과 어떻게 만났는지 에피소드 이야기도 있다. 뭐 그당시에 그 재밋게 이야기 했던 분위기는 글로서 살리기 힘들겠지만 대강의 이야기는 위 글에서 볼 수 있다. 내가 했던 이야기 중에 가장 감명 깊었던 것인데.. ^^; 공부하다 깨닫는 게 있을 때 정리를 하면 더 […]

계속 읽기

심심해서 풀어본 알고리즘 문제 하나.

You’re given an array containing both positive and negative integers and required to find the subarray with the largest sum (O(N) a la KBL). Write a routine in C for the above. 한번 훓어서 가장 크기가 큰 Subarray의 인덱스를 찾아내면 될거 같다. 아래 포스팅이 너무 눈에 거슬려서 문제하나  풀어봤다.풀어본다음에 구글 검색을 해보니 비슷한 방법으로 C++로 […]

계속 읽기

1/4분기 공부 계획!

자체 1/4 분기 계획에 따라서 책 몇권을 구입했다. 그냥 주말에 간단히 읽을 책과 디버깅 관련 책, 그리고 마지막으로 리눅스 커널 프로그래밍 책을 말이다. Distributed Systems 관련 책을 찾다가 좋은 원서를 발견했다. 전에 구글 파일 시스템을 보면서 나온 용어들이 나오는것을 보고 혹해서 사려 하다가, 이내 리눅스 커널 프로그래밍 책을 선택했다.(앞으로 한달간은 가볍게, 가볍게 가자구!) 검색엔진은 어느정도 […]

계속 읽기

검색과 클러스터링

클러스터링에 대한 공부는 예전에 k-means 알고리즘을 이용한 음성데이터 클러스터링을 마지막으로 손을 가져가지 않았다가, 이번에 이런저런 책을 보면서 클러스터링에 대한 공부를 해봤다. 검색엔진이 왜 클러스터링과 관련이 있는지 알아보자! 컬렉션이 잘 클러스터링 되어 있다면, 그 해당 클러스터만을 검색해서 문서를 찾아내는것이 더 효과적이다. 이런 효과적인 성능에 비해 크러스터링은 일반적인 검색엔진에 쓰이기 힘든 factor가 있다. 1. 문서 집합에 대해서 […]

계속 읽기

IBM 디벨로퍼웍스 연말 이벤트 인터뷰 후기

미병님이 먼저 포스팅을 올려서 나도 점심시간을 틈타 인터뷰 후기를 올려본다. 저번주 금요일날 영회님 미병님과 함께 IBM 디벨로퍼웍스 개발자 블로거 인터뷰를 했다. 처음에 강남점이 하나인줄 알고 예전 토즈에 찾아 갔다가  강남대로점이 있다는 이야기를 듣고 그곳으로 바로 달려갔다. 7시 30분에 모임이였는데 5분전에 도착한것으로 기억이 난다. 인터뷰라기 보다는 그냥 다른 블로거와 기자님의 생각을 듣고 싶다는 생각을 들고 간것이 […]

계속 읽기

블로거를 연결시켜 주는 새로운 검색 BlogReader

주변에 아주 재미난 검색 서비스를 만드시는 분이 한분 계신다.  그것도 혼자서 말이다. 그동안 올블로그나 아올린의 검색의 유명무실에 대해서 솔직히 비판을 많이 했고, 그에대한 의논을 typos님과 많이 나누었다. 물론 typos님이 거의 많은 이야기를 하셨지만, 블로그를 운영하고 양질의 블로그 포스팅을 올리려는 블로거의 입장에서 비슷한 관심사를 가진 사람을 찾아주고 묶어주는 검색이 필요했던 것이다. 누군가 블로깅을 왜 하는지에 대한 […]

계속 읽기

inverted index와 full text scan 사이에 존재하는 signature files

대부분 개발자든  누구든지간에 검색의 시발점이 되는것은 색인이라고 생각을 한다.  색인을 만든다고 하면 대부분 역색인(inverted index)를 생각한다. 여기에 정보검색의 초기시절 빠른 색인 속도와 적은 색인 구조로 제안이 되었던 색인(?)구조를 찾아봤다. 이름하여 “Signature File”구조인데 이 구조는 full text search와 inverted index 구조의 사이에 존재하는 개념이라고 생각하면 전체적인 위치를 보기에 쉬울듯 싶다. 모든 문서들을 실제 문서보다 작은 데이터로 […]

계속 읽기

일리노리 공과대학교 정보검색 랩 강의자료

전에 소개했던 Information Retrieval: Algorithms and Heuristics이라는 책에서 여러 부분 부분에 대한 공부를 틈틈히 하고 있는데, 책 자체가 너무 광범위한 내용을 함축적으로 포함한 책이라서 몇장을 보더라도 구글링을 하게 만드는 책이다. 오늘 책의 클러스터링쪽에 대한 부분을 보다가 구글링을 했는데 정말 좋은 자료를 찾았다. 일리노리 공과대학교 정보검색랩에 있는 자료인데 반갑게도 내가 보는 책이 이 랩에서 정보검색 수업 […]

계속 읽기