사용자 입력 문자열에서 문장부호나 쓸데없는 문자들을 필터링 해서 필요한 문자열로만 만들고 싶을 경우가 있다.
뭐 이 작업을 정규화 작업이라고 한다면 아래의 간단한 처리 만으로 숫자와 다양한 언어 문자열들만 포함하게끔 만들어줄 수 있다.
유니코드 카테고리중에서 숫자(Number)인것들과 문자(Letter)인것들만 허용해 string을 만들어 주는 함수이다.
물론 인자는 유니코드 문자열이여야만 한다.
from unicodedata import category def norm(word): return u"".join(== 'L' or category(c)[0] == 'N'])
문자열 카테고리 정보는 아래 링크에서 참고하면 된다.
http://www.unicode.org/Public/4.1.0/ucd/UCD.html
간단한 문자열 정규화 코드 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.