Ruchardet 패키지 submit 완료
R에서 입력되는 문서나 데이터셋의 인코딩을 알아내는 작업은 상당히 귀찮은 작업이다. 이 작업 R 쉘에서 간단하게 수행하기 위해 Ruchardet란 패키지를 개발해 CRAN에 submit하였다. 원 알고리즘 및 코드는 Mozilla 계열의 브라우저의 html파일 인코딩 예측을 하는 모듈기반에서 개발을 했으며, 패키지 라이센스도 MPL을 동일하게 따랐다. 아래와 같이 문자열에 대해서 바이트 시퀀스의 패턴을 보고 인코딩 검출을 한다. ## install.packages("Ruchardet") library(Ruchardet) […]
계속 읽기