Python으로 만든 웹 로봇으로 공공기관 1곳 사이트를 크롤링 했다.(파장을 고려해 어딘지는 말 못함)
물론 탑재한 개인정보 필터를 이용해서..
조사대상은 전화번호, 주민등록번호, 카드번호
나중에 느낀건데.. 전화번호는 뺄껄 그랬다난 생각이 들었다.
12만 페이지 넘게 크롤링한 결과를 보자면
주민번호 : 4287 개
전화번호 : 44762 개
카드번호 : 181 개
전화번호 : 44762 개
카드번호 : 181 개
몇몇 페이지를 따라가 보면 아주 친절하게 이름과 주민번호, 전화번호 등이 버젓히 나와있다.
사용자의 배려를 더 한것같은 프린트 버튼까지…..(ㅡㅡ;)
로직상 전화번호와 카드번호 로직은 약간 손봐야 하지만 주민번호 같은 경우는 특수한 경우라서 그런지 추출 성공률이 높았다.
아직 5만 페이지 정도 더 남은거 같은데 최종 결과가 나오면 다시 공개 하겠다.
공공기관사이트에 떠돌아 다니는 개인정보 심각수준 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.