간단한 문자열 정규화 코드

사용자 입력 문자열에서 문장부호나 쓸데없는 문자들을 필터링 해서 필요한 문자열로만 만들고 싶을 경우가 있다.

뭐 이 작업을 정규화 작업이라고 한다면 아래의 간단한 처리 만으로 숫자와 다양한 언어 문자열들만 포함하게끔 만들어줄 수 있다.

유니코드 카테고리중에서 숫자(Number)인것들과 문자(Letter)인것들만 허용해 string을 만들어 주는 함수이다.

물론 인자는 유니코드 문자열이여야만 한다.

 

from unicodedata import category

def norm(word):
    return u"".join(

== 'L' or category(c)[0] == 'N'])

 

문자열 카테고리 정보는 아래 링크에서 참고하면 된다.

http://www.unicode.org/Public/4.1.0/ucd/UCD.html

CC BY-NC 4.0 간단한 문자열 정규화 코드 by from __future__ import dream is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.