오픈 사이언스 활성화를 위한 AI 기술 동향

[KISTI ISSUE BRIEF] 제38호(2021.12.22.)_ 과학기술인프라, 데이터로 세상을 바꾸다

오픈 사이언스는 과학지식과 데이터, 자료에 자유롭게 접근할 수 있게 함으로써 개방적인 정보 공유와 협력을 가능하게 하고, 나아가 사회 구성원들이 과학지식의 생산과 확산에 보다 적극적으로 참여하도록 하기 위한 움직임이다.

하지만 오픈 사이언스에 있어서 여러 제약 또한 존재한다. 이러한 오픈 사이언스를 효과적으로 지원하기 위해서는 기존 논문 출판 체계와 키워드 검색을 통한 자료 접근 이외에 좀 더 세분화된 지식의 구분과 이들의 연결, 접근 및 분석의 용이성을 강화할 필요가 있다. 최근의 AI 기술, 특히 AI 기반 자연어 처리 기술은 오픈 사이언스 활성화에 큰 역할을 할 수 있다.

이에 한국과학기술정보연구원(KISTI)은 오픈 사이언스를 위한 AI 기술 활용을 위해 현 상태를 점검하고 활용 방안을 모색하는 『KISTI 이슈브리프』 38호 ‘오픈 사이언스 활성화를 위한 AI 기술 동향’을 발간했다(저자: KISTI 국가과학데이터본부 전략팀 이경하 선임연구원·디지털큐레이션센터 설재욱 선임기술원·NTIS센터 이종원 선임연구원·융합서비스센터 선충녕 선임연구원).

보고서는 오픈 사이언스 활성화를 위한 AI 기술 개발 방향으로 △기존 학술연구 결과에 대한 접근은 키워드를 이용하여 메타를 검색하는 방향으로 진행(메타에서 원문) △기존 출판된 논문 위주로의 연구 결과 접근에서 사전 출판이나 웹문서를 통해 선공개 되는 방향으로의 전환(논문에서 연결기반) △DMP 등 데이터 관련 정보들과 학술논문과의 연결 필요(데이터와 논문의 연결) △연구 단계의 구조적, 의미적 모듈화 및 연결을 통해 참여자들의 기여 유도 기반 마련 필요(기존 연구 모듈별 라이브러리 구축)를 제시했다. 브리프의 내용은 아래와 같다.

■ 인공지능과 오픈 사이언스

▶ 인공지능은 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현하려는 컴퓨터과학의 세부 분야이다.

인공지능의 응용 분야로는 △이미지 및 영상 분야 △음성 분야 △텍스트 분야가 있다. 이미지 및 영상 분야는 이미지 또는 영상을 입력받는 AI 응용으로 이미지 분류, 객체 인식, 얼굴 및 자세 인식 등이 대표적인 세부 분야이다. 음성 분야는 음성 데이터를 입력받는 AI 응용으로 음성 인식, 화자 인식, 감정 분석, 챗봇 등이 세부 분야이다. 텍스트 분야는 텍스트를 입력받아 처리하는 AI 응용으로 기계 독해, 기계 번역, 자연어 추론, 문장 생성, 문서 처리 등의 다양한 활용 분야가 있다.

▶ 오픈 사이언스는 과학지식과 데이터, 자료에 자유롭게 접근할 수 있게 하고 개방적인 정보 공유와 협력을 가능하게 하며, 나아가 사회 구성원이 과학지식의 생산과 확산에 적극적으로 참여할 수 있게 하는 움직임이다.

오픈 사이언스의 출현 배경으로는 R&D 패러다임의 변화, 연구성과물의 개방과 자유로운 접근 요구, 글로벌 아젠다로의 급부상을 들 수 있다.

오픈 사이언스의 대표적인 구성 요소로는 △오픈 액세스(OA) △오픈 데이터(OD) △오픈 콜라보레이션(OC)이 있다.

▪ 오픈 액세스(OA)는 어떤 금전적, 법적, 기술적 장벽 없이 이용자가 합법적 목적 달성을 위해 자유롭게 연구결과물에의 접근, 복제 및 배포를 허용하는 것이다. 오픈 액세스(Open Access)는 크게 셀프 아카이빙과 OA 학술지로 구분된다. 셀프 아카이빙은 학술지에서 동료평가를 거친 논문을 저자가 자신의 홈페이지나 어딘가 집중된 OA 저장소(예: arXiv)에 올리는 것으로 Green OA라고도 한다. OA 학술지는 학술지 출판사가 논문들을 무료로 공개하는 것이다.

▪ 오픈 데이터(OD)는 저작권, 특허 등의 기술적 법적 제약 없이 데이터에 접근, 활용, 재활용할 수 있도록 데이터를 개방하는 것이다. 대상은 출판 이후 뿐 아니라 연구 과정 중의 연구 자료, 관찰 및 실험 자료, 메타데이터 등 연구과정 전반에 있어서 생산되는 데이터이다. OD의 종류로는 오픈 연구 데이터(Open Research Data, ORD), 오픈 정부 데이터(Open Government Data, OGD), 오픈 공공 데이터(Open Public Data) 등이 있다.

▪ 오픈 콜라보레이션(OC)은 연구데이터, 연구 방법론 및 연구 인프라, 도구의 공개, 공유, 상호호환을 통한 연구 협업을 의미한다. OC는 그 조건으로 공동의 결과물을 생산할 수 있도록 지원하고 협업의 진입 장벽을 낮추고 유연한 사회구조를 뒷받침할 수 있는 기술을 기반으로 한 협업 플랫폼이 필요하다. OC의 종류로는 연구자 간 협업, 연구자와 기업 간 협업3, 연구자와 시민4 간 협업 등이 존재한다.

■ 디지털 큐레이션과 AI

▶ 디지털 큐레이션의 정의와 범위

▪ 디지털 큐레이션은 디지털 정보자원의 장기보존, 접근성 증대, 공유, 재사용 정책을 통해 수요자에게 맞춤형 정보를 적시에 제공·공유하는 행위로서 유사정보 연계와 빅데이터 큐레이션을 포괄한다.

유사정보 연계는 인터넷에 널린 정보 등을 주제별로, 혹은 관련된 연계성, 연관성을 지닌 무엇인가를 모아서 정돈하고 정리해서 스스로나 다른 사람에게 보여주고 공유하는 작업을 나타내며, 빅데이터 큐레이션은 ‘데이터의 숨은 가치와 잠재력 발굴’을 추구하는 활동을 말한다.

▪ 디지털 큐레이션의 범위에는 개념화, 데이터의 수집, 평가, 입수, 보존, 저장, 이용, 변환하는 내용이 포함된다.

▶ 디지털 큐레이션을 위한 인공지능 기술 동향

▪ 대부분의 디지털 큐레이션 서비스는 서비스 측면에서 인공지능을 접목하고 있다. 이미지, 콘텐츠, 뉴스, 음악, 패션 등 다양한 분야의 디지털 큐레이션 서비스에서 이용자의 행태, 관심사, 로그파일 등을 분석하기 위해 인공지능 기술을 적용하고 있다.

▪ 큐레이션 서비스는 이용자 선호 정보 분석을 위해 고전적 추천시스템에서 베이지안 네트워크, 딥러닝을 활용한 인공지능 모델 기반 시스템으로 변모하고 있다.

유사 콘텐츠 추측 모델은 사용자 선호 콘텐츠를 추측함으로써 여러 가지 항목 중 이용자에게 적합한 특정 콘텐츠를 추천, 제공하는 모델이다. 여기서 콘텐츠 기반 필터링(Content-based Filtering)은 이용자가 이용한 콘텐츠의 정보를 바탕으로 유사 항목을 추천하는 기술이며, 협업 필터링(Collaborative Filtering, CF)은 대규모의 기존 이용자 행동 정보를 분석하여 해당 이용자와 비슷한 성향의 이용자들이 기존에 좋아했던 항목을 추천하는 기술이다.

사전학습 모델은 대량의 데이터를 미리 학습하여 주어진 텍스트 데이터 내의 단어들에 대한 의미론적인 표현을 이해하는 모델이며, 2018년 BERT(Bidirectional Encoder Representations from Transformers)가 공개된 이후 GLUE(General Language Understanding Evaluation: 다양한 자연어 이해 시스템을 교육, 평가 및 분석하기 위한 리소스 모음), SQuAD(Stanford Question Answering Dataset: 크라우드 소싱을 통해 구축한 위키피디아에 대한 질문-대답 데이터 셋) 등 다양한 벤치마크에서 이전 모델들의 성능을 큰 격차로 능가한다.

▶ 디지털 큐레이션을 위한 인공지능 실현 방안

▪ 학습데이터 신뢰성 제고
인공지능 학습데이터 제작공정에서 공통적으로 준수해야할 신뢰 확보 검증지표 등의 표준 기준 마련이 필요하다.

AI의 핵심 요소는 양질의 데이터이며, 대량의 데이터보다 목적에 맞게 잘 만들어진 데이터가 똑똑한 AI를 만들 수 있기 때문이다. 그리고 메타데이터 연계규격을 바탕으로 데이터 연계·융합·식별하여 상호보완 기반 데이터 신뢰성 제고가 필요하다.

▪ 인간과 AI의 협업
섬세한 인간과 반복 처리 작업에 강한 기계의 공생 가능한 섬세한 설계가 필요하다. 휴먼인더루프(Human In The Loop) AI는 데이터 처리 과정이나 의사결정 시 사람과 기계 간 활발한 상호작용을 토대로 결과를 도출하는 방식을 도입하여 의사결정 시간 단축과 ‘확증 편향’ 현상을 극복할 수 있다.

▪ 미래지향적 법제도 정립
AI 시대 기본이념과 원칙, 역기능 방지 시책 등 법제도 마련이 필요하다. AI의 안정성 확보를 위해 AI 로봇의 공격, 자율주행차 사고 등 AI의 안정성 침해 사례를 통해 AI 사고나 부작용을 방지할 수 있는 법제도 마련이 필요하며, AI 규제 완화를 위해 AI 생태계 및 기술 발전을 위한 인공지능 관련 규제 샌드박스 활용 활성화가 필요하다.

■ 오픈 콜라보레이션과 AI

▶ 오픈 콜라보레이션의 정의와 범위

오픈 콜라보레이션은 연구데이터, 연구 방법론 및 연구 인프라, 도구의 공개, 공유, 상호호환을 통한 연구 협업을 말하며, 그 범위에는 오픈 액세스, 오픈 데이터를 기반으로 연구 협력 및 소통을 개방할 수 있는 수단과 정책, 교육, 문화가 포함된다. 연구 협력과 소통 강화를 통해 개방형 연구 문화를 형성한다.

▶ 오픈 콜라보레이션을 위한 인공지능 기술 동향

▪ 개방형 연구협력의 확대
개방형 연구 협력을 통한 다양한 기술 개발 사례가 등장하고 있다. 대표적인 사례로는 △공공데이터 또는 연구데이터를 활용한 분석 및 의사 결정 사례 △기계학습 데이터 및 벤치마크 데이터셋의 공개 및 리더보드를 통한 AI 모델들의 정확도 경쟁 △GitHub 등 공개 SW 리포지토리를 이용한 코드 공유 및 협력 개발 △논문 서지 정보 분석을 통한 관련 연구자 추천 및 신규 주제 발굴 지원 사례 등을 들 수 있다.

▶ 오픈 콜라보레이션을 위한 인공지능 실행 방안

▪ 연구자 추천과 연구 정보 추천
연구자 추천은 논문과 논문 이용자 성향 분석을 통해 해당 주제 관련 협업연구자 정보를 추천하여 연구 협력을 지원하는 것으로 인공지능 기술을 활용한 논문 이용자 패턴 분석 및 이를 기반으로 이용자에게 맞춤형 정보를 제공한다. 한편, 연구 정보 추천은 연구자의 연구 이력을 분석한 관련 연구 정보(논문, 보고서 및 과제 RFP)를 추천하는 것이다.

▪ 협업 공간 제공
프로파일이 유사한 연구자들이 소통할 수 있는 개방형 장소를 제공한다. 구체적으로는 △논문, 보고서, 특허 등 과학기술정보와 사용자 관심사 분석, 추천을 통한 연구자 간 네트워크 구축 △과학기술정보와 연구데이터의 연계, 연구자 간 관계 등 네트워크 식별 및 분석을 통한 과학기술 주체, 정보, 데이터의 연계 △온라인 상에서 협업이 쉽게 이뤄질 수 있도록 개방형 커뮤니티 및 협업 체계 구축 등이 있다.

■ 결론

▶ 오픈 액세스 측면에서 한계점과 시사점

▪ 한계점
출판 논문 수 증가로 논문 발표가 연구 진행 속도를 따라가지 못하는 등의 문제가 발생하고, 오픈액세스 운동을 상업적으로 이용하는 부실학회 등의 출현으로 인한 어려움이 존재한다.

논문 수가 폭발적으로 증가해 1년에 1백만 편 이상 출판되고 있으며, 연구자가 각자의 분야에서 따라잡기 불가능한 수준이다. 기존 성과 발표 체계 속도보다 빠르게 연구가 진행되어 이미 사전출판부터 논문이 인용되는 경우가 발생하고, 검증 부족이나 잘못된 결과를 담은 논문 공개로 인한 혼선 등 문제점이 존재한다. 부실 학술지 조기 검출을 위한 정밀한 학술지, 논문의 품질 분석, 평가 방법이 요구된다.

▪ 시사점
연구 자료 접근성을 향상시키기 위해, 논문과 함께 다양한 출처의 자료들을 연결하고 키워드 검색을 넘어 AI 기반 탐색 지원이 필요하다.

특정 키워드에 의존하는 검색보다 개략적인 주제만으로도 학술정보를 찾을 수 있는 탐색기반 접근 지원이 필요하며, 다양한 연구 결과물과 논문과의 연계를 위해 문헌 단위 접근보다 논문의 구조나 역할로 재구성된 정보들이 특성의 형태로 부착되어야 한다. 또한 단순 표절 검사를 넘어 의미, 구조를 이용한 유사성 검사와 재현 가능성을 측정하는 방법이 필요하다.

▶ 오픈 데이터 측면에서 한계점과 시사점

▪ 한계점
DMP(Data Management Platform)를 행정적 활동으로 간주하고, 연구데이터는 개인 소유라는 지배적 인식과 보상체계 미비로 인해 데이터 공유가 활발하지 못하다.

연구자는 연구데이터 공유 필요성에 비해 경험이 부족하고 개인 소유 혹은 공동 소유 인식이 강하기 때문에, 오픈 데이터 활동에 소극적이다. 데이터는 DMP를 통해 메타데이터를 확보하는 수준이며, 해외에서도 DMP를 공유하는 등의 문제가 있다.

▪ 시사점
DMP 작성 및 갱신 상황에서 연구자 부담의 경감 방법이 필요하며, 학술 출판 시 데이터 인용을 돕고 데이터 접근성 향상 방법이 요구된다.

DMP 작성의 부담을 줄이고 연구 결과의 재현성 확인을 위해 DMP가 갱신되는 상황에서 연구논문과 함께 제출하면 필요한 정보를 추출하여 DMP 내용을 수정/보완해주는 기술이 요구되며, 연구데이터를 논문 수준으로 인용한다는 인식 정착이 필요하고, 이를 위해 논문 작성 시 데이터 인용 정보 검색과 논문 삽입을 돕는 도구가 필요하다. 또한 논문에서 데이터 활용 정보를 수집하고 구축된 데이터와 연계하여 사용자들의 데이터 접근성을 향상시킬 방법이 필요하다.

▶ 오픈 콜라보레이션 측면에서 한계점과 시사점

▪ 한계점
콜라보레이션의 개념은 사회적 행위자까지 포함하는 열린 참여의 개념으로 확장되고 있으며, 과학자들이 주가 되던 협력 관계를 넘어 사회 구성원이 포괄적으로 접근 가능하도록 도구와 절차를 개방하는 단계로 변모 중이다. 유네스코의 권고에 따라 궁극적으로 과학에 사회의 다양한 이해관계자가 적극적으로 참여할 수 있도록 하는 사회적 행위자의 열린 참여(Open engagement of societal actors) 개념으로 확장되고 있다.

▪ 시사점
첫째, 기존 출판 위주의 연구 결과 공유보다 연구 과정 및 결과가 생산, 소비, 유통될 수 있도록 디지털 플랫폼 기반으로 변화가 필요하다.
둘째, 오픈 소프트웨어의 주요 성공 요인은 모듈화된 개발 방법론이다.
셋째, 기존 연구는 소수 연구자나 연구그룹에 의해 진행되어 연구 단계 구분이 명확하지 않고 결과물인 논문 작성 및 공유에만 집중한다.
넷째, 결과 공유에서 과정의 참여로 전환하기 위해서는 연구 단계나 절차마다 분리하여 다수의 참여자가 공동 작업을 진행하더라도 기여를 명확하게 판별하고 충돌 여지를 줄이는 것이 필요하다.
다섯째, 출판된 논문들의 경우도 연구 구조별로 분석함으로써 부분별로 재사용하거나 접근할 수 있도록 가공하고 구축하는 것이 필요하다.

▶ 오픈 사이언스 활성화를 위한 AI 기술 개발 방향

▪ 메타에서 원문: 기존 학술연구 결과에 대한 접근은 키워드를 이용하여 메타를 검색하는 방향으로 진행된다.

원문 분석을 통해 논문에 대한 다양한 관점(문제, 데이터, 방법, 결과 등)을 제공하고 이 관점을 통해 최근 연구부터 영향력 있는 연구까지 접근할 수 있어야 한다. 그리고 PDF 기반 종래 논문을 기계 가독적인 형태로 변환하고 내용을 구조적, 의미적 관점에서 분석하는 AI 기반 접근을 통해 원문의 접근성 향상이 필요하다.

▪ 논문에서 연결기반: 기존 출판된 논문 위주로의 연구 결과 접근에서 사전 출판이나 웹문서를 통해 선공개 되는 방향으로 전환됨

정보 접근성을 위해 논문 위주의 정보서비스가 다양한 출처의 자료들을 식별된 속성 기반으로 연결하여 서비스가 제공되어야 하며, 기존 식별체계 이외 내용 중심으로 이종 정보 간 연결망 구축을 위한 식별 및 태깅 기술 개발이 요구된다.

▪ 데이터와 논문의 연결: DMP 등 데이터 관련 정보들과 학술논문과의 연결이 필요하다. 수치나 이미지 형태의 데이터에 대한 접근성 확보가 필요하다.

▪ 기존 연구 모듈별 라이브러리 구축: 연구 단계의 구조적, 의미적 모듈화 및 연결을 통해 참여자들의 기여 유도 기반 마련이 필요하다. 즉, 기존 연구들을 모듈화하고 각 단계에 대응하도록 분할, 가공할 수 있는 기술이 필요하다.

고현석 기자 다른기사 보기