논문 실험에 실패하고….
2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 […]
계속 읽기당신의 나의 뜨거운 감자!
2달에 걸친 노력을 쏟은 논문 실험에 일단 실패 했다. 첫술에 배부르랴마는 실망이 말이 아니군… 이틀동안 아무것도 안하고 그동안 읽지도 않고 밀어 뒀던 책만 보다가 실험을 뒤로 하고 논문 집필 작업에 들어갔다. 실험이 끝나기 전엔 집필을 하려고 하지 않았는데 교수님을 금요일날 만난 자리에서 논문실험하고 집필하고 같이 해나가는게 좋을꺼라는 말씀을 듣고 바로 오늘부터 집필에 들어갔다. 실험이 끝나고 […]
계속 읽기네이버의 불펌 검사 시스템이 나왔나 보다. 네이버 공식 블로그에 나온 글인데…꽤나 잘 설계되었다면 좋은 검색 결과로 보답을 하리라 생각한다. 원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다! mapreduce같은 분산처리를 이용해 이런 시스템을 구현했으리라 감히 예상해 본다. 중복 검사 프로세스는 알고리즘상 정확도와 처리복잡도간의 trade-off가 발생하기 때문에 정확한 검사를 위해 분산처리를 하지 않을수 없을것이다. 검색결과의 freshness를 위해서 저놈이 병목이 되어 […]
계속 읽기스팸 ip 모은거 올려본다. 저번에 3위를 하던 놈이 1위로 등극했고, 2위 하던 놈은 부동의 2위 자리를 고수하고 있다. 그럼 1등하던 ip는 어딧나???역시나 영원한 1등은 힘든것인가? 파일 첨부합니다. XUQhkgDLu7.xls ps. 목록을 블로깅 툴에 어느정도 등록(스팸ip로)시켜 두면 여러모로 괜찮을거 같기도 하다.
계속 읽기현재 논문과는 별도로 실제 Disk Based Hash를 구현했다.(진행중??) 이것의 속사정은 이렇다. 3만여건의 comment를 training하는데 무려 3시간이 넘는 시간이 필요했기에 테스트의 역동성을 위해서 구현을 해버린 것이다. 왜 3시간이냐? 하고 묻는다면, pos tagger를 헤집어볼 시간이 없어서였다. 이것의 입출력 인터페이스를 위해 무려 3번의 파일 writing을 해버리는 무지막지한 병목을 만들어 버렸다. 결국 어떻게든 파일 기반 해슁을 만들어 버렸으니… 쩝… […]
계속 읽기Ham: 3만건 Spam : 2만건 Test set : 2천건 Ham이 너무 많아서 Spam comment의 평균 길이 이하는 버려버렸는데도 Ham 코멘트는 여전히 많다. 평균적으로 Spam 코멘트가 길이가 짧더라. 이틀 데이터 수집하고 수집한거 필요없는 데이터를 제거하기 위한 전처리 작업을 했고, 그리고 이제는 Pos Tagger를 붙이려 하고 있었다. Pos Tagger는 Brill의 테거를 교수님이 추천해 주셔서 그걸로 쓰고 있는데, […]
계속 읽기주말에 blog comment를 구하기 위해 오랫동안 썩혀 두었던 웹 크롤러를 꺼내들고 오랜만에 돌려 봤다. 테크노라티 분야별 top 블로거의 양질의 comment 1만건을 뽑아 왔다. 데이터를 뽑아서 좀 보니 색다른 아이디어도 생각나더라. 내 크롤러는 대용량이나 웹검색을 위해서 만든건 아니고, 100만건 이하의 웹을 크롤링 하는데 적합한 크롤러다. 노트북에 크롤러를 돌려보면서 크롤러를 대용량 검색을 위해서 바꾼다면 어떻게 해볼까 생각을 […]
계속 읽기예전에 Distribute Indexing에 대해서 글을 써본적이 있는데, 아주 아이디얼하게 시작 문자로 분산을 시켰었다. 오늘은 어떤것을 기준으로 대용량 분산을 하면 될지 한번 생각해 보려고 한다. 아마도 이것은 Query Processing에 대한 글과도 관련이 있을거 같다는 생각이 든다. (top k개의 결과만 가져오면 된다는 가정을 하고 기술하기 때문이다.) hadoop과 같은 mapreduce기반의 시스템은 분산시 쓰이는 function을 제공한다. 그리고 또한 이것들을 […]
계속 읽기야후에서 직접 Hadoop이 내부적으로 어떻게 쓰이는지 공개 했다. 뭐 쓰임새야 야후직원이고 평소 관심이 많아 알고 있었던 사실이고 직접 써보기 까지 했으니… 내부 자료인데, 적당한 레벨에서 공개를 한거 같다. 실제 Hadoop에 대한 소개글 수준인 Doug Cutting의 ppt 보다 Eric의 ppt가 볼만하다.왜냐면 실무에서 어떻게 사용이 되는지 간단하게 나마 소개되어 있기 때문이다. Hadoop at OSCON Yahoo!의 Hadoop cluster […]
계속 읽기