“글로벌 AI 경쟁력 열악”…AI 생태계 구축 늦으면 경쟁 도태
상태바
“글로벌 AI 경쟁력 열악”…AI 생태계 구축 늦으면 경쟁 도태
  • 고현석 기자
  • 승인 2023.01.01 00:00
  • 댓글 0
이 기사를 공유합니다

[KISTI 이슈 브리프]_ 인공지능 학습 데이터 공유·활용 현황과 서비스 구축 방향
- KISTI, 과학기술계 AI 생태계 구축 방안 제시
- AI 학습데이터, AI 학습모델, 소스 코드 공유 필요성 제기
- AIDA 통해 인공지능 학습 데이터 셋 9종 약 3천만 건 제공

 

인공지능 기술의 급속한 발전과 보급으로 다양한 분야에서 인공지능 학습데이터, 모델, 소스코드 등을 공유 및 활용하기 위한 노력이 활발하다. 특히, 증가하는 인공지능 수요에 대응하기 위해 기존의 전문가에 의한 모델 개발 중심에서 대규모 데이터 및 AI 개발 중심으로 변화하고 있으며 다양한 학습 데이터셋이 생산 및 공개되고 있다. 하지만, 이러한 학습 데이터셋의 효과적인 활용을 위한 다양한 지원 환경과 체계는 고려하고 있지 않다.

이에 한국과학기술정보연구원(KISTI)은 인공지능 기반의 과학 및 현안 해결을 위해 과학기술 인공지능 생태계 구축 및 서비스 방안에 대한 〈KISTI 이슈브리프〉 제51호 ‘인공지능 학습 데이터 공유·활용 현황과 서비스 구축 방향’(저자: 이용 책임연구원 외 6명)을 12월 26일 발간했다.

인공지능 기술은 과학기술과 산업기술의 성장과 혁신을 가속하는 핵심 기술로 대두되고 있으며, 우리나라를 포함한 세계 주요국들은 인공지능 관련 정책과 비전을 발표해 왔다.

그러나 영국의 데이터 분석 미디어 토터스인텔리전스(Tortoise Intelligence)의 글로벌AI지수 조사 결과, 2022년 우리나라의 인공지능 경쟁력 순위는 세계 7위를 기록했으며, 인재 부문 28위, 운영환경 부문 32위에 그쳤다.

또한, 우리나라는 AI 논문 수 세계 9위, 논문 편당 인용 수 31위, 원천기술 연구자 규모가 미국의 4%에 불과한 등 글로벌 AI 경쟁력이 열악한 것으로 분석됐다.

브리프에 따르면  양적 성장이 이루고 있는 인공지능 학습데이터와 인공지능 연구의 산출물(모델, 소스코드 등)에 대하여 통합, 관리, 재현할 수 있는 통합적인 체계의 구축은 매우 의미가 있다. 따라서 다양한 사회현안 및 과학연구 지원을 위한 인공지능의 수요는 더욱더 폭발적으로 증가할 것으로 예상된다.

브리프는 이를 효과적으로 지원하기 위한 고품질의 학습데이터, 학습모델, 소스코드 등의 효과적인 공유·활용 지원을 위한 지속적인 노력과 인공지능 생태계 구축이 필요하다고 제언했다.

 

◇ 브리프의 주요 내용은 다음과 같다.


■ 과학기술 인공지능 데이터 공유·활용 체계의 필요성

이슈 브리프에 따르면 인공지능 기술은 과학기술과 산업기술의 성장과 혁신을 가속하는 핵심 기술로 대두되고 있으며, 우리나라를 포함한 세계 주요국들은 인공지능 관련 정책과 비전을 발표해 왔다.

ㅇ 인공지능 기술은 과학기술과 산업기술 영역의 성장을 가속하는 혁신의 조력자(Enabler) 역할 수행
ㅇ AI 기술은 알고리즘 및 프로그램 개발 중심에서 대규모 학습데이터를 활용한 기술개발 방식으로 전환되고 있음
ㅇ 데이터가 AI 시스템의 신뢰성과 품질을 좌우
ㅇ 세계 주요국에서도 AI 기술 발전을 위해 정부와 민간 협업으로 투자하여 대규모 AI 데이터 구축 경쟁이 가속화되고 있음
ㅇ 과학기술 인공지능 데이터 공유·활용 생태계 마련 시급


■ 인공지능 관련 서비스 및 공유 현황

▶ 인공지능 학습데이터 서비스 현황

ㅇ Kaggle: 캐글은 데이터 과학자들을 대상으로 기계학습 경진대회, 데이터셋, 분석모델 구축, 교육 등을 제공하는 온라인 커뮤니티 또는 플랫폼임
ㅇ Registry of Open Data on AWS: 아마존은 AWS를 통해 공개한 데이터를 쉽게 찾을 수 있고, AWS에서 접근·분석할 수 있도록 Github를 통해 데이터 추가 가능
ㅇ Google Public Datasets: 구글은 공개된 데이터셋을 쉽게 검색과 접근하도록 했으며, Kaggle, Data Solutions for Change, Cloud AutoML, Vision AI, BigQuery 등 Google Cloud가 가지고 있는 다양한 서비스를 편리하게 사용 가능
ㅇ IBM Data Asset eXchange: 데이터 과학자가 Community Data License Agreement를 준수하는 공개 데이터셋을 찾을 수 있으며, 다양한 IBM Research 데이터도 액세스를 제공하고 IBM Cloud 및 AI 서비스와의 다양한 통합을 제공
ㅇ OpenML: OpenML은 개방적이고 협력적인 기계학습 환경을 제공하며, 온라인에서 자동으로 데이터를 분석하고 조직화가 가능
ㅇ NIA AI Hub: NIA는 AI를 개발 및 활용하기 위한 인프라와 데이터를 제공
ㅇ ETRI AI API/DATA: ETRI는 인공지능 SW 기술과 함께 학습데이터도 제공하며, 공개된 인공지능 SW 기술들은 Open API를 통해 체험 및 연구 활용이 가능

▶ AI 코드 개발 및 공유 서비스 현황

ㅇ Jupyter Ecosystem: Jupyter는 2014년 Fernado Perez에 의해 시작된 iPython 기반 인터렉티브 코드 수행환경 개발 프로젝트이며, Python뿐만 아니라, Julia, R, Haskell, Ruby 등의 다양한 언어를 지원하는  통합개발 환경으로 널리 사용
ㅇ Code Ocean: Code Ocean은 코드의 재생산성과 협업 증진을 위한 통합 환경을 제공하는 플랫폼임
ㅇ Papers With Code: Papers with Code는 기계학습 분야의 논문 및 코드를 제공하고 동일 문제 혹은 데이터셋에 대한 여러 논문의 결과를 비교하는 기능도 제공
ㅇ Galaxy: Galaxy 웹 프레임워크는 바이오인포매틱스 분야를 중심으로 다양한 연구 관련한 데이터를 분석하는 서비스를 제공하는 오픈소스 플랫폼임

■ KISTI 인공지능 데이터 공유·활용 서비스 구축 방향

ㅇ KISTI는 과학기술 분야의 AI 생태계 플랫폼인 AIDA(AI Data Archive)를 구축해 과학기술 인공지능 데이터에의 자유로운 접근과 데이터 처리, 분석 등을 지원하는 서비스를 제공하고 있다.

‘AIDA’는 다양한 분야의 연구자들이 인공지능 학습 데이터를 자유롭게 활용하고 연구에 활용된 소스 코드, 모델, 분석 결과 등을 공유하여 과학 및 사회문제를 효과적으로 해결할 수 있도록 사전학습모델 기반의 맞춤형 인공지능 모델 생성 환경을 제공한다.

KISTI는 R&D 혁신과 디지털 전환 가속화를 위해 AIDA를 통해 기계 실행 가능한 링크드 데이터 서비스와 활용 인프라 구축, AI 데이터 분석·활용 워크벤치 및 코드 재현성 검증 기술개발, 문제 해결을 위한 인공지능 기반 협업 환경 등을 제공하고자 한다.

ㅇ 아울러 KISTI는 AIDA를 통해 과학기술 기계학습 데이터셋 9종 약 3000만 건의 데이터와 다양한 AI 연구 지원 서비스를 제공하고 있다.

AIDA는 다양한 형태의 인공지능 데이터 저장과 검색, Open API 제공, 인공지능 데이터셋의 활용 사례 등록 및 검색, 데이터 활용 신청 등 다양한 서비스를 제공한다.

특히 국내 과학기술 논문과 특허 약 3억 8천만 문장에서 추출한 사전학습언어모델을 활용할 수 있도록 주피터랩(JupyterLab) 기반의 개발환경 인터페이스를 제공하고 있다.

AIDA의 학습데이터 레이블링 저작도구는 사전학습모델 기반 자동 레이블링 기능을 지원함으로써 학습데이터 제작의 편의성과 생산성을 향상시킨다.

ㅇ KISTI 기계학습데이터연구단은 최근 AI 분야에서 화두인 멀티모달 AI에 대한 데이터셋과 기술개발을 진행할 계획이다. 다양한 유형의 정보(텍스트, 이미지, 오디오, 비디오 등)를 통하여 인간의 사고방식을 모방하는 기술인 멀티모달이 등장하고 있다. 

KISTI는 과학기술 분야의 다양한 포맷에 대한 멀티모달 데이터셋 및 활용 기술을 개발하여 멀티모달 AI에 대한 수요에 대응할 예정이다.


■ 맺음말 및 제언

ㅇ 국가 R&D와 사회문제 해결에 필요한 고품질의 인공지능 학습데이터를 제공
•  인공지능 학습데이터는 인공지능 기술 경쟁력을 좌우하는 원천이며, 연구개발 방식도 데이터 기반으로 전환되고 있음
• 학습데이터 공급의 장점으로 수집과 처리에 투자되는 시간과 비용을 절감하여 연구개발 주기를 획기적으로 단축할 수 있음
• 활용가치가 높은 고품질의 데이터를 제공할 수 있는 체계를 구축하여 많은 인공지능 연구자, 기업에 활용

ㅇ AI 기술 경쟁력 제고하고 저변을 확대하는 노력 필요
• 과학기술, 산업 등 다양한 분야에서 AI 활용도가 증대되면서 AI 기술 경쟁력이 국가와 산업경쟁력의 핵심으로 부각
• AI 기술개발의 생산성 제고를 위해서는 연구 분야별 학습용 데이터와 제반 인프라를 제공하여 온라인 문제해결과 협업 지원 필요
• 캐글(Kaggle)과 같은 플랫폼 기반의 온라인 문제해결과 지원을 통해 빅데이터 활용 역량, 분석 기술 및 분석 역량 등 AI 저변 확대 필요

ㅇ 국가 R&D, 사회문제 등 다양한 분야를 지원하기 위한 인공지능 생태계 구축 필요
• 인공지능 학습데이터의 준비, 모델 훈련, 모델 활용 등 인공지능 관련 활용 환경을 지원하는 인프라와 서비스 구축 필요
• 맞춤형 AI 데이터 융합‧분석과 AI R&D 결과의 재현, 검증을 지원하여 연구의 질적 수준과 투명성 제고하고 다학제간 협업 연구 기회 증대
• AI-빅데이터 기반의 비대면 크라우드 소싱 통해 문제 해결하는 체계 고려


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사