면접시 실기 테스트

저번 부장님께 적극 건의한적이 있었는데 이번에 드디어 프로그램 필기 테스트를 보기로 했다. 면접비도 안주는데 필기며 면접이며 매번 불러서 미안하긴 하지만 좀더 확실한 사람을 뽑기위한 과정이라 생각하고 신경을 써보기로 했다. 물론 뽑히는 분에게는 세미나 식으로 검색엔진에 관한 강의 비슷한걸 해줘서 빨리 팀 분위기에 적응할수 있도록 해야겠다. 노하우의 전수라고나 할까???? 너무 많은걸 가르쳐 줄라고 하면 힘드니 천천히 […]

계속 읽기

형태소 분석기 개발3

형태소 분석기를 한참 개발하다가 저질 사전이 문제가 많아 사전구축 작업에 들어간지 이틀만에 사전을 완성하였다. 9품사별로 나뉘었고, 음절별로 나누어 DB파일로 저장을 했다. 용언은 사전에 나온 그래로 DB로 만들었고 형용사와 동사를 합칠까 고민도 해봤는데 따로 놓는게 나중을 생각해서라도 나을거 같아서 분리해서 놓았다. 단독 어절로 등장하는 단어(관형사, 부사, 감탄사, 단일어 체언) 같은 경우도 따로 저장을 해서 분류하였다. 물론 […]

계속 읽기

부사 사전을 만들면서

14만 국어사전을 구해서 이래저래 잔작업을 하며 부사 사전을 구축했다. 음절별로 8개의 사전을 구축했는데, 우리나라 말이 굉장히 잼있는게 많다는 걸 알았다. 특히 7음절, 8음절짜리 부사가 있다는 생각도 못했는데. 있었다. 음이 아주 재미있기까지 하다. 7음절은 1개의 부사가 있더군. “내치락들이치락” 8음절은 5개나 있다. “새근발딱새근발딱, 시근벌떡시근벌떡, 할래발딱할래발딱, 헐레벌떡헐레벌떡, 흘근번쩍흘근번쩍” 아주 음감이 그냥 쥑인다.

계속 읽기

형태소 분석기 개발2

형태소 분석기개발에 여념이 없다. 지금 중점을 두고 있는 부분이 사전 써치하는 부분이다. 이 부분을 바이너리 써치로 할려고 하는데… C로 모듈을 개발하고 나니 가지고 있던 사전 정렬이 형편없이 되어 있는 사실을 알았다. ㅜㅜ 집에내려가는 기차안에서 임시정렬 스크립트를 Python 스크립트로 대충 만들어 돌려보니.. 이런…. 사전이 다 깨져 있었다. 부사 사전7개 중에 3개가 형태를 알아볼수 없을정도로 깨져있어. 난관에 […]

계속 읽기

형태소 분석기 개발 1

형태소 분석기 코딩에 들어가기전 마지막 정리를 블로그에 하려고 한다. 팀장님에게 휴가 다녀오고 난 다음부터 코딩으 들어가겠다고 단언을 했으니 내일부터 코딩에 들어가려면 여독을 좀 빼고 논문정리도 좀 해가면서 글로 정리해봐야 겠다. 우선 형태소 분석기를 담당하게 해주신 팀장님께 감사드리고 음절정보를 이용한 형태소 분석 논문을 만들어 주신 국민대학교 강승식 교수님에 감사하다는 말을 전하고 싶다. 이 정리는 전적으로 강승식 […]

계속 읽기

G마켓과 옥션 검색엔진 간단 비교

인터넷 쇼핑을 할때 옥션과 G마켓을 주로 이용을 한다. 갠적으로 G마켓이 아주 조금(?) 저렴하다고 생각하고 사용자 인터페이스 역시 괜찮다고 생각을 하고 있다. 하지만 검색기능은 옥션이 훨씬좋다. 내가 여행용품을 사려고 옥션에 갔다. 맥가이버 칼과 동시에 후레쉬 기능을 가진 물품을 찾을려고 한다. 검색어 : 맥가이버 후레쉬 를 입력하고 검색버튼을 누르니 이런 화면이 나왔다. 오~~~ 내가 원하는 물품이 딱 […]

계속 읽기

‘첫눈’ 검색엔진 예고편

첫눈 블로그 첫눈 오~~~ 국내에도 구글과 같은 순수 검색엔진이 등장하는것인가? 첫눈이 특허 출원중인 ‘스노우 랭크’기술은 ‘중복된 정보가 가치가 있다’는 명재에서 시작한 랭킹알고리즘 이라는데 어찌보면 구글의 랭킹 알고리즘과 유사할수 있다는 생각을 잠시 해본다. 근데 이건 키워드 중심이군…. 첫눈검색을 몇가지 해본다음에 간 페이지가 구성원 페이지 였고 그 다음 페이지가 채용페이지였다. ㅋㅋㅋ

계속 읽기

결과적으로 엠파스만 이익이다.

네이버와 엠파스의 검색 전쟁! 어떻게 생각하시나요? 어쩔수 없는 결과 아닌가 하네…. “야후에서 못찾으면 엠파스” 이런 광고 나왔을때도 야후에서 방방뛰었지만 결과적으로 엠파스 키워준 꼴만됐고… 근데.. 네이버에서 하는 뉴스부분이라든지 동적색인 부분은 엠파스에서는 따라오지 못할것같다. 자신의 데이터가 아니고서야 그날올라온거 그날 색인을 하기는 쉽지 않을테니…..그래서 오늘 데이터를 찾을때는 네이버에 간다. 그밖의 정보를 찾을땐 엠파스로…. 개발 자료 찾을땐 구글로.. 개인정보를 […]

계속 읽기

요즘 나의 개발 이슈

웹 로봇에 자바스크립트 파서 탑재 하는것. 웹로봇 개발자들의 염원인 자바 스크립트 링크 분석 이거 완벽하게 구현하면 대박이라고 검색엔진 개발자 그룹의 typos님이 말씀하셨다. 물론 Dom을 분석해서 자바스크립트 객체로 만들어 줘야한다. – 이것때문에 열심히 API연구및 소스코드를 헤집어 보고 있다. 그러기 위해서는 HTMLParser를 더욱 보강 해야한다. – MS만큼의 파서를 만들기는…. 시간부족, 테스트 부족… 하지만 Form 정보만 완벽하게 가져올수 […]

계속 읽기

공공기관사이트에 떠돌아 다니는 개인정보 심각수준

Python으로 만든 웹 로봇으로 공공기관 1곳 사이트를 크롤링 했다.(파장을 고려해 어딘지는 말 못함) 물론 탑재한 개인정보 필터를 이용해서.. 조사대상은 전화번호, 주민등록번호, 카드번호 나중에 느낀건데.. 전화번호는 뺄껄 그랬다난 생각이 들었다. 12만 페이지 넘게 크롤링한 결과를 보자면 주민번호 : 4287 개 전화번호 : 44762 개 카드번호 : 181 개 몇몇 페이지를 따라가 보면 아주 친절하게 이름과 주민번호, […]

계속 읽기