표절의 과학, 공학, 정치학읽음

조환규 | 부산대 교수·컴퓨터공학

모든 자식은 부모의 유전정보를 그대로 베껴 쓴다. 친족 검사가 가능한 이유는 인간이 가진 탁월한 생물학적 표절능력 때문이다. 만일 콩 심은 데 팥이 나고, 팥 심은 데 쑥이 난다면 인류는 일찌감치 멸종했을 것이다.

[과학 오디세이]표절의 과학, 공학, 정치학

대를 이어 전해지는 생물의 표절행위는 생태계 안정을 위한 핵심 기능이다. 무생물인 문자로 이루어진 글도 생물체와 흡사한 방식으로 진화, 발전, 멸종을 반복한다. 1930년, 콜로라도 덴버에서 시작된 ‘행운의 편지’는 표절과 진화를 거듭하여 아직도 번성 중에 있다. <흥부놀부전>이나 <심청전>은 진화와 적응을 통하여 생존에 성공한 구전설화의 최종 승자라고 할 수 있다.

최근 불거진 공직자 논문 표절 문제에서도 진화라는 과학적 관점으로 접근하는 것이 대응책 마련이나 학문 발전에 도움을 줄 수 있다.

어떤 두 생물체가 유사한 DNA 서열을 가지고 있을 경우, 이 유전자 서열들이 같은 조상에서 분화한 것인지의 여부를 확률적으로 검증해주는 방법이 진화유전학에 있다. 이 작업과 표절탐색은 본질적으로 동일하다.

진화 혹은 표절은 그것이 우연히 일어날 가능성에 대한 확률론적 방법으로 접근할 때 비로소 과학적 형식을 갖추게 된다. 예를 들어 표절 기준으로 알려진 “연속된 6단어의 동일 여부”는 조사할 자료의 특성을 고려하지 않은 비과학적 규정이다.

표절의 여부는 의심받는 두 구절이 우연히 같아질 확률로 검증되어야 한다. 따라서 올바른 표절검사를 위해서는 진화유전학적 접근 방법과 같이 해당 분야의 자료를 충분히 모아서 관련된 확률 모형을 먼저 마련해야 한다.

필자의 실험 결과, 공모 없이 모두 독립적으로 작성된 대학생 과제물의 평균 ‘표절값’은 65 정도였다. 표절값 0이 불가능한 이유는 일정 길이 이상의 문서들은 같은 문자나 단어를 가질 수밖에 없기 때문이다. 표절값이 200을 넘어가면 의심, 400 이상이면 표절이 거의 확실하므로 확인 작업으로 확정만 하면 된다. 필자가 만든 과제물 표절모형에 따르면 표절값 1000 이상인 구절이 공모 없이 우연히 일치할 가능성은 수백만분의 1로 예측된다.

표절값 기준은 과제물, 추천서, 학위논문, 공공기관 보고서, 학술논문 등의 특성에 따라서 다르게 적용해야 한다. 따라서 공정한 표절검사를 위해서는 해당 분야의 문서를 충분히 수집하여 표절값의 분포를 규명하는 작업이 선행되어야 한다.

의뢰받은 논문 1편을 150만개의 학위논문과 대조하여 표절 여부를 빠르게 찾아내는 일은 공학적 문제다.

이를 위해서는 논문 내용이 디지털로 변환될 수 있어야 한다. 단순히 논문을 파일 형식으로 제출하면 되는 문제가 아니라 논문에서 글, 그림, 표가 정확하게 추출되도록 파일이 구성되어야 한다.

그래서 표절을 들키지 않으려면 논문이 텍스트로 추출되지 않는 특별한 형식의 PDF 파일로 제출하면 된다. 만일 표절검증을 염두에 둔다면 논문 파일에 대한 엄격한 표준을 만들어 지금부터라도 강제해야 한다.

지금과 같이 특정 워드파일로 제출받아서는 표절검색의 공학적 장벽을 극복할 수 없다. 50년이 지나도 논문의 내용을 해석하는 데 문제가 없는 TeX와 같은 가장 단순한 표기법이 개발되어야 할 것이다.

그리고 한글은 영어와 달리 어순이나 어미의 변화가 자유로워 조사 변형과 어순 변화만으로도 일반 표절검색기를 통과할 수 있다.

또한 문장의 마침표, 띄어쓰기를 조작해도 통과할 수 있기 때문에 한글에 보다 특화된 표절탐색법이 시급하다.

학위논문의 표절검색만이 문제가 아니다. 빅데이터 시대에 축적된 문서자료는 구리, 석탄보다 더 귀한 자원이 될 수 있다. 지금과 같은 느슨한 국가문서 체계로는 미래에 대비할 수 없다.

일찍부터 타자기를 사용해온 서양은 기본 문자만으로 문서를 만들기 때문에 그 텍스트 추출도 쉽고 자동화가 가능하지만 우리의 공문서는 장식용 글씨체, 기호와 부호의 남발, 제각각인 표와 그림 양식 때문에 자동화 처리가 어렵다.

빅데이터 시대를 대비하기 위하여 논문을 비롯한 모든 지적 창작물은 공정하게 관리, 검증, 검색될 수 있도록 표준양식이 강제되어야 한다. 그래야만 이 소모적인 표절 대소동을 종식시킬 수 있다. 이것은 결국 정치의 몫이다.


경향티비 배너
Today`s HOT
젖소 복장으로 시위하는 동물보호단체 회원 독일 고속도로에서 전복된 버스 아르헨티나 성모 기리는 종교 행렬 크로아티아에 전시된 초대형 부활절 달걀
훈련 지시하는 황선홍 임시 감독 불덩이 터지는 가자지구 라파
라마단 성월에 죽 나눠주는 봉사자들 코코넛 따는 원숭이 노동 착취 반대 시위
선박 충돌로 무너진 미국 볼티모어 다리 이스라엘 인질 석방 촉구하는 사람들 이강인·손흥민 합작골로 태국 3-0 완승 모스크바 테러 희생자 애도하는 시민들
경향신문 회원을 위한 서비스입니다

경향신문 회원이 되시면 다양하고 풍부한 콘텐츠를 즐기실 수 있습니다.

  • 퀴즈
    풀기
  • 뉴스플리
  • 기사
    응원하기
  • 인스피아
    전문읽기
  • 회원
    혜택