검색엔진 공부에 대한 모델링

검색엔진 개발자 그룹의 그룹장님이신 하얀눈길님께서 공부 순서에 대하여 순서도로 만들어 주셨다.

물론 나는 저 순서로 따라가지는 않지만 하나하나 섭렵해 나가는거 같은 느낌이 든다.(난 처음에 로봇 만드는것부터 시작했다. 현재는 텀추출부분을 하고 있지만..)

하얀눈길님이 아주 초보자가 보기 쉽게 잘 정리를 해주셨으나, 하나하나가 만만치는 않은게 사실이다.

그러나 검색엔진을 가장 쉽게 접근할수 있는 방법은 모니모니 해도 검색엔진 개발자 그룹에 가입하고 열심히 활동하는게 가장 빠른 방법이지 않을까 한다. 적어도 내 경험상 그랬다.

나도 빨리 배우고 익혀서 검색엔진 개발자 그룹에 보템이 되는 고수로 남아야 할텐데.

0 0 votes
Article Rating
Subscribe
Notify of
guest

8 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
conv2

전 아직도 준회원이라는… T_T
보아하니 참으로 아주 간단하게 잘 정리된 플로우이네요.
그만큼 쉽지는 않겠지만, 고수로 올라가고 싶은게 저도 그러네요. ^^;
참. 개체명 인식을 주제로 논문을 쓰시면 어떨까요?

곰곰이

conv2 님 : 개체명인식? 주제 정말 좋은거 같은데요. 근데… 아무런 감이 안오니 문제네요. ㅋㅋㅋ 비공개로 살짝.. 힌트 주시면 안될까요? ^^;

conv2

개체명 인식(Named Entity Recognition)은 개체명(조직, 인명, 장소, 상품명), 시간표현(날짜, 시간), 단위표현(화폐, 퍼센트)를 가리킵니다. 이 경우 이 개체명 인식 바탕으로 유사한 것을 잡아낸 후, 정보 추출하는 것으로 압니다. 따라서 정보검색에 있어서 형태소분석, 사전등 많은 것이 기반되어야만 개체명 인식도 가능해지게 되죠. 결국 지능형 정보검색 시스템 구축할 수 있는 한가지 방법입니다. http://cat2.riss4u.net/search/re_t_detail_print.jsp?p_control_no=09753091 의 논문 개요 보시면 이해되실 것입니다.

conv2

http://www.cseric.or.kr/new_Cseric/yungoostep/content.asp?idx=555
이 링크를 따라가보시면, 개체명 인식의 힘(?)을 느끼실 수 있습니다. ^^;

그리고 개체명 인식을 전공하신 분은 그리 많지 않다고 하더군요. 그만큼 감자님께서 논문을 쓰신다면 큰 노하우가 되리라 봅니다. ^^;

Ernie

개체명 인식이란 쉽게 말해 문서에 “안녕하세요 곰곰이님….” 같은 문장이 있을 때 “곰곰이”가 닉네임이란 걸 인식하는 것입니다. 닉네임 뿐만 아니라, 도시명, 기관명,도서명 등을 찾아낼 수도 있죠. 보통 사전이나 패턴을 사용하는 규칙 기반 방법과 주변 문맥을 이용하는 기계학습기반 자동 분류 방법을 씁니다. 개체명 사전이나 개체명 인식 패턴의 자동 확장, 기계학습을 위한 자질 결정 같은게 연구토픽이 됩니다.

conv2

Ernie님께서 정확하게 설명해주셨네요. 역시 검색분야는 넓고 넓습니다. ^^;

곰곰이

conv2 님 : 논문주제 추천해 주신거와 더불어 설명까지 해주셔서 정말 감사합니다. 방학을 맞아서 이분야에 대해서 조사를 해봐야 할거 같습니다.

Ernie 님 : 연구토픽까지 말씀해 주시다니, 감격스러울 따름입니다.

검색엔진공부 모델링에 대한 글을 예전에 쓴적이 있다. 여기 보면 웹로봇은 “쓸만한 전문도서 없음”이라고 되어 있다. 뭐 그래서 이곳에 덧붙이고자 포스팅을 써본다. 웹로봇을 개발을 하다 보