바이오 기술패권 대응 위한 100만명 규모 바이오 빅데이터 구축 필요
상태바
바이오 기술패권 대응 위한 100만명 규모 바이오 빅데이터 구축 필요
  • 고현석 기자
  • 승인 2023.07.22 14:41
  • 댓글 0
이 기사를 공유합니다

- KISTI, ‘국가 바이오 빅데이터 인프라의 미래’ 이슈브리프 발간
- 바이오 데이터 생태계의 가치사슬 흐름(생산→저장 및 유통→주체별 활용)에 대한 이해 및 단계별 활성화 방안이 필요

 

국가 바이오 데이터 기반 산업 및 연구경쟁력 강화를 위해서 100만명 규모의 바이오 빅데이터 구축이 필요하다는 의견이 제시됐다.

한국과학기술정보연구원(KISTI)은 국가 바이오 빅데이터 인프라 구축 동향 및 향후 발전 방향에 대한 ‘KISTI 이슈브리프’를 최근 발간했다.

KISTI는 법령에 따라 지정된 국가초고성능컴퓨팅센터로서 첨단 정보 및 연구개발 인프라의 구축 및 운영을 통해 과학기술경쟁력 강화에 그 역량을 집중하고 있다.

이번 이슈브리프에서는 바이오 부문의 연구개발인프라 구축 및 운영에 있어서 KISTI 역할을 포함, 국내외 바이오 빅데이터 인프라 구축 동향을 소개하고 이에 기반한 부문별 미래 발전 방향을 제시했다.

국가 바이오 빅데이터 인프라는 바이오 데이터를 국가 차원에서 수집, 관리하고 활용하기 위한 시스템과 기술로 구성된 총합으로서, 디지털 바이오 패러다임 하에서 질병 진단, 신약 개발 및 치료법 개발 등 연구혁신 및 바이오산업 성장에 있어서 필수 요소로 정의된다.

국내에서는 생명연구자원 빅데이터 구축전략, 디지털바이오 혁신전략 등 보건의료 빅데이터 구축을 통한 정밀의료 실현을 목표로 데이터를 축적, 활용하는 다양한 정책을 추진하고 있다. 특히 다부처 국가생명연구자원 선진화 사업을 통해 국가바이오데이터스테이션을 중심으로 데이터를 통합 관리하고, 분석·활용환경을 구축하여 서비스를 제공하는 사업이 추진 중이다.  

해외 주요 선도국가에서는 국가 주도의 바이오 비전 수립 및 후속 실행전략을 수립하여 국가 바이오 데이터 생산 및 서비스가 구축, 운영되고 있으며 정밀의료 이니셔티브 등의 국가 정책사업으로 맞춤형 진단 및 의료로 분석결과를 연계하고자 노력하고 있다. 

브리프에 의하면, 선도국 사례를 통해 볼 때 국내에서도 국가 바이오 데이터 기반 산업 및 연구경쟁력 강화를 위해서는 바이오 데이터 생태계의 가치사슬 흐름(생산→저장 및 유통→주체별 활용)에 대한 이해 및 단계별 활성화 방안이 필요하다.

첫째, 생산 부문에 있어서 바이오 기술 패권 대응을 위한 100만 명 규모의 바이오 빅데이터 구축이 필요하며 국가 전략 자산으로서의 역할을 고려한 제도적 기반과 기술적 서비스 기반 조성이 요구된다.

둘째, 데이터 공유와 연결성 강화는 바이오 데이터 제공과 유통의 주요 활성화 요인으로 통합 데이터 인프라 확대 및 AI 등 디지털 기술 활용 기반 강화가 중요하다.

셋째, 대규모 빅데이터 분석을 위해 특화된 바이오 컴퓨팅 인프라를 제공하여 연구 및 산업 주체가 원활하게 데이터를 활용할 수 있도록 해야한다.

넷째, 데이터 생산자, 전문기관, 분야별 연구자 간의 연구협업 네트워크 구축 지원 및 데이터 공유체계를 통해 연구 협업을 촉진하는 것이 필요하다.

KISTI 김재수 원장은 “국가 전략기술 및 핵심 전략산업으로서 첨단 바이오 부문이 주목받고 있는 현 시점에서 KISTI는 바이오 빅데이터 활용 환경을 위한 연구개발 인프라 구축 역할을 성공적으로 수행함으로써 국가 아젠다가 실현될 수 있도록 최선을 다할 것이다. 또한 통합적 연구협력 생태계 조성으로 연구데이터 선순환 체계를 구축함으로써 연구자를 다각도로 지원하도록 더욱 노력할 계획이다.”고 밝혔다.

 

◇ 브리프의 주요 내용은 다음과 같다.

■ 국가 바이오 빅데이터 인프라 구축 배경

▶ 바이오 빅데이터 인프라 개요

ㅇ 바이오 빅데이터는 바이오 연구 수행을 통해 생산, 활용되는 모든 빅데이터를 의미하며 주로 다양한 생물체의 실물에서 도출되는 전체 정보를 뜻함 
ㅇ 기존 빅데이터 대비 바이오 빅데이터는 다음과 같은 특징을 지니고 있어 데이터 처리 및 분석을 위한 별도의 인프라 구축이 요구됨
• 타 분야 대비 크기 측면에서 대규모의 빅데이터를 다루며 다양한 데이터 형식과 복잡도를 가지고 있음
• 바이오 빅데이터는 분석 대상에 따라 다양한 형태의 정보가 수집될 수 있음
• 바이오 데이터는 개인정보를 포함하고 있기 때문에 정보 보호를 위한 데이터 보안이 필요하며 이를 해결하기 위해서 안전한 데이터 저장 및 처리 시스템과 엄격한 보안 프로토콜이 필요
• 의료분야에 활용되는 데이터이므로 데이터의 정확성과 신뢰성이 매우 중요함. 이로 인해 데이터 활용에 대한 규제와 윤리적인 문제를 함께 고려해야 함

▶ 바이오 빅데이터 인프라 구축의 필요성

ㅇ 고령화에 따른 의료비 증가 등 사회적 부담 경감을 위해 진단·치료 중심 의료에서 개인의 유전체 정보 기반 4P 의료(예측의학, 예방의학, 참여의학, 맞춤의료)로 패러다임 전환 추세

 

ㅇ 국가 신성장 동력의 하나인 바이오 분야를 위한 정책적 육성 시책 필요 
ㅇ 개인의 환경적·유전적·생물학적 특성 등을 고려하여 질병을 세분화하고 이에 따른 맞춤형 질병 예측, 예방, 진단, 치료를 시행하기 위해서는 바이오 빅데이터 수집, 축적 및 분석을 위한 인프라 구축이 필수적임 


■ 국가 바이오 빅데이터 인프라 발전 방향

▶ 바이오 데이터생태계 가치사슬 

ㅇ 바이오 데이터생태계 가치사슬의 흐름은 ①바이오 데이터 생산 → ②바이오 데이터 정제·가공을 통한 저장 및 유통 → ③연구 및 산업 주체별 활용으로 이루어짐 
ㅇ 각 단계를 거쳐 데이터 가치가 창출되도록 분야 특성에 적합한 활성화 요인(enabling factor)을 식별하여 제시하고 개선 및 발전방향을 제시함으로써 프로세스가 원활히 작동하도록 지원

▶ 데이터 생산 부문 인프라 발전 방향

ㅇ 선진국이 국가 전략자원으로서 바이오 빅데이터를 구축하는 현실을 감안하여 국내에서도 지속 확장성이 있는 국가전략자산으로 대규모 바이오 데이터 구축 필요
ㅇ 포스트게놈 다부처 유전체 사업(2014-2021)을 통해 개인별 맞춤의료 실현과 동·식물, 해양생물 등 다양한 유전정보를 수집하고 있고, 국가 바이오 빅데이터 시범사업(2020-2022)을 통해 2만5천명 규모의 한국인 전장유전체 및 임상데이터를 구축 중
ㅇ 정부 차원의 국가 바이오 빅데이터 생산 시범사업 완료 후 9,988억원 9년 사업으로 현재 예비타당성 조사가 진행되고 있음
ㅇ 데이터 기반 정밀의료 분야의 연구개발 경쟁력 강화를 위해 국가 간 격차를 감안한 조속 추진 필요

ㅇ 선도국 사례 및 난치 질환에의 활용을 고려하여 100만명 규모에 준하는 빅데이터 구축 필요
ㅇ 민감정보 활용에 대한 법적 제약, 개인정보보호, 보안 문제 해소가 필요하므로 제도적 기반과 함께 안전한 제공을 위한 기술적 기반 조성 필요

▶ 데이터 저장·유통 부문 인프라 발전 방향

ㅇ 10만명 이상의 대규모 데이터 축적이 가능한 공유 플랫폼이 현 시점에서 부재하므로 생산 단계 이후 이를 구축하고 공유·개방하는 별도의 플랫폼 필요
ㅇ BAM, FASTQ 등 원데이터 및 백업 데이터를 포함하면 10년 내 100PB~150PB 이상의 스토리지가 필요한 것으로 추산
ㅇ 정보 유통 시 개인 민감정보 보호를 위한 처리(암호화, 가명화, 비식별화) 방안 마련

▶ 대규모 처리량 기술 등장과 데이터 제공 유통의 활성화

ㅇ 대규모의 바이오 데이터 처리가 가능한 대규모처리량 기술(high-throughput technology)이 등장 하고 다중 오믹스 데이터가 축적되면서 데이터 간 연결성 강화는 데이터 제공·유통의 주요 활성화 요인으로 대두
ㅇ 멀티오믹스 데이터, 임상정보, 일상정보(라이프로그) 등 다양한 보건의료데이터 간 연계가 제공되는 유전체-오믹스-공공데이터 통합 서비스 체계 필요
ㅇ 분야 간 연계 외 국가 간 연계에 필요한 데이터 표준화 서비스 체계도 활성화의 주요 요인으로 고려
ㅇ 국가바이오데이터스테이션(K-BDS)을 통해 ’21년부터 53개 유형의 바이오데이터 통합 제공 체계가 마련된 바 있으므로 향후 다양한 국가 및 지역 바이오 데이터의 통합분석을 위한 연계 체계 및 기술적 실행기반 필요

▶ 연구 및 산업 주체별 활용을 위한 인프라 발전방향

ㅇ 연구 및 산업 주체별 활용 프로세스가 원활히 이루어지기 위해서는 대규모 데이터 활용을 원활하게 하도록 지원하는 요인 필요
ㅇ 인프라 관점에서 ①빅데이터 분석에 필요한 대규모 컴퓨팅 인프라 공급, ②빅데이터 분석을 위한 협업 인프라의 제공으로 구분

▶ 빅데이터 분석에 필요한 대규모 컴퓨팅 인프라 공급

ㅇ 대규모 빅데이터 분석을 위한 국가 차원의 분석·활용환경 강화 및 제공 필요
ㅇ KISTI가 데이터 연구 활성화를 위해 국가 차원에서 구축, 운용 중인 초고성능컴퓨팅 연구지원체계가 있으나 과학기술 전 분야를 대상으로 하고 있고 신청자원 대비 자원 제공율이 65% 수준으로 자원 제공 여력이 부족한 상태임을 감안할 때 바이오 분야에 필요 계산자원을 온전히 제공하기 어려움

▶ 디지털 바이오 패러다임 대응

ㅇ 바이오 분야 전반에 AI 등 데이터 기반 기술을 적용하는 디지털 바이오 패러다임이 확산되고 있어 이에 대응하는 활용환경 강화 필요 
ㅇ 신약 개발을 위한 약물-단백질의 상호작용 예측, DNA서열분석, 단백질 구조 예측, 유전체 변이/발현 및 기작 예측 등 데이터 분석과 예측모델에 AI가 적극적으로 활용되는 추세 
ㅇ 디지털 바이오 혁신전략(’22) 등에 따르면 국가 차원에서 데이터 기반 연구 확산을 위한 기반 기술 확보 등 다양한 시책을 추진하고 있음
ㅇ 인프라 제공 측면에서는 국가바이오데이터스테이션, 바이오소재 플랫폼 등을 통해 데이터 수집·관리·공유 체계 조성에 집중하고 있음
ㅇ 향후 데이터 활용 활성화를 위한 환경 구축 및 AI 활용 플랫폼 강화 필요

▶ 빅데이터 분석을 위한 협업 인프라의 제공

ㅇ 바이오 데이터 기반 연구는 그 특성상 협업이 매우 필수적인 분야로 협업 네트워크의 구성과 활용에 대한 지원이 매우 중요한 활성화 요인으로 작동
ㅇ 분석 및 해석과 응용에 다양한 분야별 전문성이 필요함
ㅇ 데이터 생산자, 전처리 및 분석 전문가·전문기관, 분야별 연구자 간 네트워크 구축 지원 및 수요 맞춤형 중개는 바이오 데이터 활용 활성화의 주요 요인으로 필요함

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사