간단한 문자열 정규화 코드

사용자 입력 문자열에서 문장부호나 쓸데없는 문자들을 필터링 해서 필요한 문자열로만 만들고 싶을 경우가 있다. 뭐 이 작업을 정규화 작업이라고 한다면 아래의 간단한 처리 만으로 숫자와 다양한 언어 문자열들만 포함하게끔 만들어줄 수 있다. 유니코드 카테고리중에서 숫자(Number)인것들과 문자(Letter)인것들만 허용해 string을 만들어 주는 함수이다. 물론 인자는 유니코드 문자열이여야만 한다.   from unicodedata import category def norm(word): return u"".join([c […]

계속 읽기