동료 평가 시 Co-reviewer로서의 인공지능의 활용 가능성

[R&D 브리프]

최근 ChatGPT로 대표되는 생성형 인공지능(Generative Artificial Intelligence)의 등장으로 인공지능 기술이 그 어느 때보다도 빠르게 연구 현장에 깊숙이 침투하여 연구 과정 전반에 걸쳐 폭넓게 활용되고 있다.

최근 네이처(Nature)가 1,600여 명의 연구자를 대상으로 실시한 설문 조사에 따르면, 응답자 중 30% 안팎이 연구 주제 탐색, 논문 원고 작성, 코딩 등에 생성형 인공지능 툴을 사용하는 것으로 나타났다.

심지어 응답자의 15% 이상은 연구 보조금 신청서(grant applications)를 작성하는 데 보조 툴(tool)로서 생성형 인공지능을 이용한다고 답했다.

이 조사에서 특히 주목할 점은 응답자의 약 15%가 논문을 평가하는 데 생성형 인공지능을 활용하고 있고, 10% 이상이 동료 평가를 빨리 끝낼 수 있었다며 만족감을 표시했다는 사실이다.

여러 기술·윤리적 문제의 지적에도 불구하고 Statcheck(통계 오류 검사), Cactus Labs(원고 요약, 핵심 개념 추출 등) 등 평가 지원 자동화 소프트웨어들이 속속 등장하고 있다.

이에 한국연구재단은 동료 평가 시 인공지능을 일종의 검토 파트너(co-reviewer)로서 효과적으로 활용할 수 있는 가능성을 검토한 「R&D 브리프」〈동료 평가 시 Co-reviewer로서의 인공지능의 활용 가능성: 우려와 기대 사이의 균형〉(저자: 국책사업평가팀 신정법 부연구위원·이계석 팀장)을 2월 29일 발간했다. 아래 브리프의 내용을 발췌 소개한다.

□ 우려와 기대

ㅇ 인공지능 기술을 평가에 활용하는 일은 평가자의 책무인 기밀 유지 의무(Confidentiality)를 위반하는 일로서 개인 정보, 데이터 보안, 지식 재산권 등을 침해할 수 있다는 점에서 가장 큰 우려를 낳고 있다.

일반적으로 클라우드 기반의 생성형 인공지능을 평가에 활용하려면 평가하려는 논문 원고나 연구 제안서를 해당 툴로 전송해야 하는데, 그 과정이 사실상 승인받지 않은 제3자에게 유출하는 행위가 된다.

업로드된 원고나 제안서는 학습 데이터로 활용될 수 있고, 인공지능 툴을 통해 어디에서, 누구에겐가 노출되고, 인용되고, 재가공될 수 있기 때문에 개인 정보나 지식재산권이 침해될 소지가 다분하다.

또 다른 우려로는 입력 데이터에 숨겨진 편향이나 부정확한 정보로 평가 의견에 오류가 발생할 위험성, 그에 따른 책임 소재의 불명확성, 과중한 평가 부담으로 생성형 인공지능 툴을 오용하여 부실한 평가 의견을 남발하는 평가자의 무책임성 등을 들 수 있다.

ㅇ 반면, 인공지능이 동료 평가 과정을 개선할 수 있으리라는 기대감도 적지 않다. 이를테면 논문 원고나 연구 제안서를 검토하면서 간과한 부분은 없었는지, 통계 처리상에 오류는 없었는지, 위조·변조·표절 같은 부정행위는 없었는지 등을 신속·정확하게 확인해 주어 시간적 제약이나 인간적 한계를 극복할 수 있으리라는 기대다.

□ 해외 주요 연구비 지원 기관의 대응

ㅇ 대체로 영미권의 연구비 지원 기관들은 생성형 인공지능의 사용이 불러올 위험성에 방점을 찍고 사용을 금지하는 정책을 시행 중이다. 미국 국립보건원(National Institutes of Health), 미국 국립과학재단(National Science Foundation), 호주 연구회(Australian Research Council)는 보조금 신청서나 연구 제안서를 평가하는 데 생성형 인공지능 사용을 금지하고 있다.

ㅇ 한편, 캐나다의 연구비 지원기관들과 유럽 연구위원회(European Research Council)는 인공지능 사용에 관한 지침을 조만간 수립·공표하거나 관련 논의를 진행할 예정이다. 반면, 중국 과학기술부는 기밀 유지와 심사 활동 조직자의 승인을 조건으로 생성형 인공지능의 제한적 사용을 허가하고 있다.

□ 우려와 기대 사이의 균형

ㅇ 지식 재산권, 연구 진실성 및 데이터 보안 침해, 기밀 유출, 평가 의견상의 편견이나 오류 등 생성형 인공지능의 기술적 특성 또는 한계로 말미암은 위험성 때문에 사이언스(Science) 등 몇몇 학술 출판사들도 동료 평가에서 생성형 인공지능의 사용을 금지하고 있다.

ㅇ 반면, 사용 금지만이 능사가 아니라는 주장도 상당하다. 오픈 액세스 출판사인 바이오메드 센트럴(BioMed Central)도 평가자에게 도움이 될 수 있는 인공지능의 5가지 잠재력을 아래와 같이 열거하면서 이를 무시해서는 안 된다고 주장한다.

① 건설적이고 읽기 쉬운 평가 보고서를 작성하는 데 보조자로서 지원
② 영어가 유창하지 않은 연구자의 지원을 통해 동료 평가에서의 민주화 촉진
③ AI 툴의 편향 위험성이 상존하지만 기존의 동료 평가 방식(manual reviewing)에 내재된 잠재적 편향, 판단, 주관성의 최소화
④ 상당수의 연구는 다학제적 정밀 검토가 필요함. 상당한 시간, 에너지, 전문 지식(예, 통계적 타당성)이 필요한 논문 검토를 빠르게 처리
⑤ 평가 작업에서 상호 보완적인 도구로 추가적인 통찰력과 맥락을 제공하여 기존 인간 평가자의 검토 내용을 심화

ㅇ 기관의 강력한 통제하에 클라우드 기반이 아닌 오프라인 상태에서 작동할 수만 있다면 기밀 유지 위반, 데이터 보안과 지식재산권 침해, 훈련 데이터 오염에 따른 편향과 오류 발생 등에 대한 우려를 상당 부분 불식시킬 수 있다. 아울러 동료 평가를 위한 생성형 인공지능의 개발과 활용의 범위를 평가자 대체가 아니라 ‘지원’에 지향점을 두고, 사용 금지 조치 너머(이후)의 가능성을 모색할 필요가 있음.

ㅇ 다시 말해, 평가 과정상에서 인공지능에게 의사 결정 권한을 부여하기보다는 보조원 또는 협력자로서 그 역할을 제한하고, 인공지능 활용의 잠재력과 편익을 극대화하는 방향으로 논의를 전개함이 필요하다. 이는 동료 평가에서 인간적 한계와 오류를 극복하면서도 인간만의 창의적 통찰력과 윤리적 판단에 집중케 하여 인공지능 사용 문제에 관해 대립하는 두 입장 사이에서 적절한 균형을 찾을 수 있을 것이다.

□ Co-reviewer로서의 인공지능의 활용 가능성

ㅇ 인공지능을 일종의 검토 파트너(co-reviewer)로서 효과적으로 활용할 수 있는 영역들을 국내 연구 환경, 특히 국가연구개발사업 환경에서 찾아볼 수 있음. 예컨대 국가에서 운영 중인 각종 데이터베이스(연구자, 성과, 과제 관련정보)를 토대로 연구개발 제안서 등의 평가에 적합한 평가자를 자동으로 식별·추천하는 툴을 개발하여 활용할 수 있다.

또한 국가연구개발 과제 선정을 위해 이미 수행되었거나 현재 수행되고 있는 연구개발 과제와의 차별성을 검토하는 데에도 유용하게 활용될 수 있다.

ㅇ 현재 「국가연구개발혁신법」은 필요시 다른 연구 과제와의 차별성을 평가하도록 하나, 검토 방법과 사항이 포괄적이고, 주로 이용되는 국가과학기술지식정보서비스(NTIS)의 차별성 검토 기능은 메커니즘상 연구 내용이 다른 과제를 검출할 수 있으므로 결국 평가위원회에서 차별성 여부를 상세히 검토하여 최종적으로 판단해야 한다.

그러나 매년 제한된 시간과 인력으로 방대한 양의 연구개발 과제 평가에서 평가위원회가 차별성 항목을 추가로 면밀하게 검토하기에는 분명 무리가 뒤따르므로 부실성마저 우려되는 실정이다. 이에, 실질적으로 유사한 연구과제만 빠짐없이 검출하고, 연구개발 주제, 목표, 수행 방식의 차이점에 관한 심도 있는 분석을 제공할 수 있도록 문장 임베딩 모델과 문맥·의미 기반 키워드 추출 등을 이용한 인공지능 분석 툴의 적용을 속히 고려해 봄이 바람직하다.

고현석 기자 다른기사 보기