최근 대학가에선 인공지능(AI)이 뜨거운 감자로 떠올랐다. 서울 주요 대학에서 시험에 AI를 사용해 부정행위를 했다가 적발되는 사례가 잇따라서다. 서울대에선 지난달 치러진 교양 과목 ‘통계학실험’ 중간고사에서 다수 학생이 AI를 이용해 문제 풀이를 한 정황이 드러나 논란이 됐다. 앞서 연세대의 3학년 대상 ‘자연어 처리(NLP)와 챗GPT’ 수업과 고려대의 대규모 온라인 교양과목 ‘고령사회에 대한 다학제적 이해’ 중간고사에서도 AI나 오픈채팅방을 활용한 집단 부정행위가 발생해 논란이 일었다.
지금까지 확인된 AI 활용 부정행위 주요 사례는 ▲비대면 대형 강의 AI 활용 금지 위반 ▲비대면 강의 오픈채팅방 답안 교환 ▲컴퓨터 이용 대면 시험 AI 활용 금지 위반 등이다. 대학생들 사이에서는 AI 활용 능력이 성적을 좌우한다는 자조 섞인 반응까지 나오고 있다.
AI 탐지기 활용이 부정행위를 막을 방안으로 거론되지만 일각에선 “AI 탐지기의 정확도가 떨어진다”, “우회 프로그램으로 얼마든지 피할 수 있다”는 의견도 나온다.
실제 최근 AI 탐지기가 부정 사용을 적발하는 데 사용될 만큼 정확하지 않고 신뢰할 만하지도 않다는 내용의 연구 결과가 나오고 있다. 필리핀 연구진이 2020∼2024년 AI 탐지기를 다룬 논문 34편을 검토해 발표한 논문 ‘AI 생성 글 탐지기의 정확도와 신뢰성’(2025)에 따르면 대부분 AI 탐지기의 정확도가 50% 이상을 보였으나 탐지기별로 차이를 보였다.
유료 AI 탐지기가 무료보다 더 나은 성능을 보였다. 유료 AI 탐지의 정확도는 평균 87%였지만 가입이 필요 없는 AI 탐지기는 정확도가 77%에 그쳤다. 하지만 탐지 회피 기법을 도입하면 정확도는 대부분 급격하게 떨어졌다. 예컨대 다른 표현으로 바꾸기만 해도 정확도가 60% 이상 하락한 사례도 있었다. 또 GPT-4로 생성된 자료보다 GPT-3.5로 생성된 자료를 탐지할 때 더 높은 정확도를 보였다. 이는 AI 탐지기의 정확도가 오래된 AI 모델에 대해선 효과적이지만 새로운 모델에선 제대로 기능하지 못함을 의미했다. 해당 논문은 이런 문헌 검토 결과를 토대로 “AI 탐지기는 사용하기에 정확하지도 않고 신뢰할 만하지도 않다”며 “AI 탐지기의 능력에만 전적으로 의존해서는 안 된다”고 조언했다.
AI 탐지기는 영어와 구조적·문법적 특성이 다른 한국어에 대해서도 제 기능을 발휘하지 못하는 것으로 나타났다. ‘2024년 대한전자공학회 하계학술대회 논문집’에 실린 논문 ‘인공지능 생성 텍스트 탐지 기술의 한국어 적용’(박현주·김병준·김부근 중앙대 AI대학원)에 따르면 영어 기반인 AI 탐지 모델을 한국어에 그대로 적용하면 성능이 급격하게 떨어지는 것으로 나타났다.
이 논문에선 디텍트GPT와 ‘적대적 학습 기반 AI 텍스트 탐지 모델’(RADAR)이라는 두 가지 AI 탐지 모델을 대상으로 GPT-3.5-터보와 클로드-3-소네트가 생성한 한국어 텍스트를 입력해 AI 생성 글인지 여부를 판단하게 했다. 그 결과 GPT-3.5가 생성한 글들에 대해서 디텍트GPT는 수용자조작특성곡선(AUROC) 값이 0.55∼0.65, RADAR는 0.40∼0.47을 기록했다. AUROC 지표는 AI 생성 글과 인간이 쓴 글을 얼마나 잘 구분하는지 보여주는 점수로 0~1 사이의 값을 갖는데 1은 100% 확률로 맞춘다는 것을 의미한다. 0.5는 확률이 50%이므로 사실상 탐지기가 아무 쓸모가 없는 수준임을 나타낸다. 어떤 글이 AI 생성 글이거나 인간 글일 확률이 기본적으로 반반이므로 어떤 글이 AI 생성 글일 확률이 50%라고 말하는 것은 누구나 할 수 있는 말이기 때문이다. 이 두 탐지 모델이 영어로 쓰인 글을 대상으로 했을 때 AUROC 값이 0.9 수준에 달했던 것과 비교하면 한국어 글에 대한 탐지 능력이 상당히 떨어진다고 할 수 있다.
이처럼 현재 AI 탐지기로 AI 부정 사용을 적발하기 어렵다면 어떻게 학내 AI 부정 사용에 대처해야 할까. 영국의 민간 싱크탱크 고등교육정책연구소(HEPI)가 올 2월 발표한 ‘2025 생성형 AI 학생 활용 실태 조사’의 결과와 정책 제언이 주목할 만하다. HEPI는 모든 시험·평가에 대해 챗GPT 유로 버전과 같이 강력한 AI를 활용해 문제가 너무 쉽게 풀리지는 않는지 확인하는 스트레스 테스트를 실시해야 한다고 조언했다. 학생들이 교과 과정에 성실히 참여하지 않고도 AI를 활용해 높은 점수를 받을 수 있다면 그런 시험 또는 평가는 과감하게 다시 설계해야 한다고 강조했다. 그러면서 대학이 AI 교육에 적극적으로 나서지 않는다면 AI를 잘 다루는 학생과 그렇지 못한 학생 간 디지털 격차를 더 확대할 것이라고 경고했다.
이정인 기자 lji2018@segye.com