노벨과학상 수상자·한국 리더연구자 연구제목 키워드 연관 분석
상태바
노벨과학상 수상자·한국 리더연구자 연구제목 키워드 연관 분석
  • 고현석 기자
  • 승인 2021.07.11 14:51
  • 댓글 0
이 기사를 공유합니다

[NRF R&D 브리프] ‘노벨과학상 수상자와 한국의 리더연구자 연구제목 키워드 연관 분석’
- 양자·초전도·유기·단백질 등 유사 키워드 상위 노출

한국연구재단은 지난 5월 20일 [R&D Brief 2021-7호]로 <노벨과학상의 핵심연구와 수상연령>, 6월 3일에는 [R&D Brief 2021-10호]로 <노벨과학상 수상자 통계 분석>을 발간한 데 이어 이번에는 [R&D Brief 2021-11호]로 <노벨과학상 수상자와 한국의 리더연구자 연구제목 키워드 연관 분석>(작성자: 정책혁신팀 이성민·양정모)을 발간했다.

분석 자료로 노벨과학상 역대 수상자의(1901년~2020년) 연구제목을 대상으로 물리학, 화학, 생리의학 한글 코퍼스(말뭉치)를 구축했다. 

분석방법은 코퍼스 언어학(Corpus Linguistics)의 키워드를 분석하는 것으로 키워드란 서로 다른 두 개의 코퍼스에서 만든 단어 목록을 사용하여 컴퓨터 알고리즘으로 텍스트의 특징이 될 만한 단어를 선별한 것을 말한다.

기계학습기법인 교차분석(Cross Validation)으로 코퍼스 간 비교를 했으며, Rayson and Garside(2000) 로그-라이클리후드 알고리즘에 의한 키워드로 유의수준 0.01 이상의 임계값(critical value)을 키워드 산출 기준으로 설정했다.

코퍼스 언어학 분석을 위해 분석도구로 WordSmith Tools 7.0을 사용했으며, 클라우드 빈도 분석 시각화를 위해 NetMiner 4.0을 활용했다.

■ 분석결과

▶ 물리학 분야 키워드

물리학의 연구제목을 대상 코퍼스로 두고, 화학과 생리의학을 참조 코퍼스로 하여 산출한 물리학 분야 키워드를 추출했다.

그림에서 ‘Key word’는 물리학의 키워드이고 ‘Freq’는 키워드 사용빈도, ‘%’는 사용 비율을 의미하며, ‘RC.Freq.’는 화학과 생리의학으로 구성한 코퍼스에서 해당 키워드의 사용 빈도를 의미한다.

분석결과 총 21개의 키워드가 타 분야(화학, 생리의학)와 비교하여 물리학 분야에서 통계적 유의미성을 가지며 높은 임계값을 보였다.

임계값이 높은 10개 연구 관련 내용어는 입자(1위), 양자(2위), 중성자(3위), 원자(4위), 역학(5위), 우주(6위), 초전도체(7위), 반도체(8위), 레이저(9위), 원자핵(10위) 등이었다.

▶ 화학 분야 키워드

화학의 연구제목을 대상 코퍼스로 두고, 물리학과 생리의학을 참조 코퍼스로 하여 산출한 화학 분야 키워드를 추출했다.

분석결과 총 13개의 키워드가 타 분야(물리학, 생리의학)와 비교하여 화학 분야에서 통계적 유의미성을 가지며 높은 임계값을 보였다.

임계값이 높은 10개 연구 관련 내용어는 반응(1위), 유기(2위), 고분자(3위), 촉매(4위), 화합물(5위), 복분해(6위), 원소(7위), 단백질(8위), 특정(9위), 발효(10위) 순이었다.

▶ 생리의학 분야 키워드

생리의학의 연구제목을 대상 코퍼스로 두고, 물리학과 화학을 참조 코퍼스로 하여 산출한 생리의학 분야 키워드를 추출했다.

분석결과 총 26개의 키워드가 타 분야(물리학, 화학)와 비교하여 생리의학 분야에서 통계적 유의미성을 가지며 높은 임계값을 보였다.

임계값이 높은 10개 연구 관련 내용어는 조절(1위), 유전(2위), 면역(3위), 세포(4위), 기능(5위), 신경(6위), 치료(7위), 바이러스(8위), 체계(9위), 대사(10위) 순이었다.

■ 결론 및 시사점

코퍼스 언어학의 유용한 도구 중 하나인 키워드 분석을 통해서 노벨과학상 분야별(물리학, 화학, 생리의학)로 사용된 특징적인 단어를 빠르게 파악할 수 있었다.

키워드 수는 물리학 21개, 화학 13개, 생리의학 26개 순으로 생리의학에서 가장 많은 키워드가 나타났다. 생리의학 코퍼스에는 타 분야에서 0회 혹은 매우 적은 빈도로 사용된 단어를 많이 포함하고 있음을 알 수 있었다.

노벨과학상의 물리학과 화학 분야 키워드를 한국연구재단의 리더연구사업(2012~2021, 10년)의 물리 및 화학 분야 선정 과제의 키워드와 비교했다. 한국연구재단의 리더연구사업은 미래의 독자적 과학기술과 신기술 개발을 위해 세계적 수준에 도달한 연구자의 심화연구 집중 지원을 통해 글로벌 연구리더로 육성하는 사업으로 생리의학의 경우 다양한 분야를 포괄하고 있어 비교대상에서 제외했다.

리더연구 물리학의 빈출 키워드는 양자(1위), 차원(2위), 소자(3위), 물질(4위), 초전도(5위), 융합(6위), 반사(7위), 시간(8위), 역행(9위), 고전자기적(10위) 등으로 노벨물리학상 키워드와 2개가 일치했다.

리더연구 화학의 빈출 키워드는 나노(1위), 세포(2위), 산소(3위), 소재(4위), 활성(5위), 산화(6위), 유기(7위), 화합물(8위), 효소(9위), 단백질(10위) 등으로 노벨화학상 키워드와 2개가 일치했다.

노벨과학상과 비교하여, 재단 리더연구사업은 사업기간과 선정 과제 수가 상대적으로 적어, 키워드 비교에서 큰 유사점과 차이점은 없었으나, 양자, 초전도, 유기, 단백질 등 유사 키워드가 상위에 노출되었다.

향후, 노벨과학상의 수상자 연구주제를 살펴보고, 재단의 지원사업을 비교해 나간다면, 한걸음 더 노벨상 수상에 가까워지는 증거를 제공할 수 있을 것으로 생각된다.

 

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사