오늘 오랜만에 학교 홈페이지를 둘러보다가 재미난걸 발견했다.
공고중에 학생들 리포트 표절을 방지하기 위한 일환으로 표절검사 프로그램을 이용하라는 공고였다.
참 재미날걸 발견했다는 생각으로 바로 포탈에 가서 다운받아서 설치를 하고 메뉴얼을 훓어 보았다.
고려대학교 학생이면 고려대학교 포탈에 들어가서 프로그램을 다운받아 사용할수 있다. 이게 정확히 라이센싱이 어떻게 되는지 명시되곳이 없어서 현재로서는 여기에 업로드는 힘들거 같다는 생각이 든다.
임해창 교수님께서 매번 논문표절하지 말라고 강조를 하시면서 항상 프로그램 이야기를 하셔서 정말 많이 궁금했던 찰라였다.
메뉴얼을 훓어보는데… 헉~~~ HWP, DOC를 텍스트로 변환하는데 아래한글과 MS Office가 필요하다는 것이였다. 현재 내 노트북에는 OpenOffice만 깔려있고 HWP파일을 HWP Viewer을 이용해서 보고있는 실정이다. 그래서 아쉽게도 돌려보는건 나중으로 미루고 메뉴얼만 훌어보니 대충 어떻게 돌아가는지 감이 오긴한다. 살짝 프로그램 내부에 형태소분석 라이브러리가 있음을 알수 있었다.
원리는 웹상의 레포트 문서를 검색해 학생들의 레포트와 문장 유사도 검사를 통해 표절 유무를 판단하는것이다. 한두문장 같다고 표절 판정을 하는건 아니고 연속적으로 표절문장이 출현하였을시 표절로 판단을 하는것이였다. (문장간의 비교횟수가 상당하리라 예상이 되는데 내부적인 검색 색인을 하는걸로 보인다)
특정 문서에 대한 표절검사 결과 화면은 이렇다.

뭐 내일정도 돌려볼것이지만 지금까지 나의 생각을 적어보자면 일단 나처럼 OpenOffice로 작성해서 pdf로 레포트를 제출하는 학생들을 검사하기는 매우 불편하리라 생각이 들고 일단 pdf 파일에 txt락을 걸어버리면 조회가 거의 불가능 하게 되지 않을까 한다. 물론 HWP나 DOC로 문서 포멧을 한정시켜 버린다면 이야기가 달라지겠지만 말이다.
또한가지 단점은 내장 문서필터를 사용하지 않아서 일단 사용자 PC에 아래한글과 MS 오피스가 깔려 있어야 한다. 이 부분에 대해서는 국내 문서필터 업체에 문의를 해서 공짜로 받아쓸수 있는 라이센싱도 가능하리라 보는데 좀 아쉽긴 하다.
인터넷에 엄청난 레포트 자료가 존재하는 만큼 표절하기도 쉽고 표절을 검사하기도 쉬워졌다는 사실이 참 재밋다. 하지만 이미 외국에서는 이런 툴이 보편화 되어 있는 실정이니 우리 나라 대학도 이런걸 적극이용해 학생들의 학업의욕을 높이는것이 바람직해 보이기도 하다.
물론 나로서는 이런툴은 분석 대상이다.
워드깔고 아래한글 깔고 시간날때 한번 어떤식으로 분석을 하는지 자세하게 살펴봐야 겠다.
재미난 프로그램이군요.. 나중에 저도 이런걸 만들게 되면 어떻게 할지 고민 좀 해봐야겠습니다..
당연 오픈소스 아니겠습니까? 이런건 오픈소스로 해야 좋을듯 합니다. 문장비교하는 로직을 좀 파볼 요량입니다. ㅋ
후배가 만든 프로그램인데 이 내용으로 쓴 논문이 있는 걸로 압니다.
최성원, 김상범, 임해창,
주변 문장의 유사도를 이용한 문서 재사용 측정 모델,
제17회 한글 및 한국어 정보처리 학술대회 논문집, pp.179-183,
서울, 대한민국, 한국정보과학회/한국인지과학회, 2005년 10월.
논문 보시면 도움 되실 듯. 그런데 저 프로그램을 다운로드할 수 있군요. 웬지 리포트를 “주의하여” 표절하는데 악용될 듯한 예감이 드네요. ^^;
그리고 문서 필터 문제는 아마 무료 라이센싱이 안돼서 저렇게 한게 아닐까 싶군요. 제가 예전에 얘기 들을 때만해도 문서 필터를 넣는다는 계획이 있었거든요. ^^
으악~~~!
Ernie님 매번 너무 좋은 정보 감사드립니다.
논문 소개까지 해주시다니.. 감격했습니다. ㅜㅜ
드뎌 블로그 트랙백도 광고로 오염되기 시작하구먼….
테터툴즈 다음 버전에 스팸 필터링 할수 있는 버전이 나온다고 해서 기다리고 있답니다.
근데 오늘 정말 최악의 스팸입니다. ㅜㅜ
사실, 바이그램으로 대충 슥삭해도 대략 잘 나올 것 같습니다.