"챗GPT로 시작된 생성형 AI 시대, 기업·정부·이용자 노력 필요"

[이슈와 논점]

2022년 11월 30일 미국의 인공지능(artificial intelligence: AI) 기업 오픈에이아이(OpenAI)가 ‘챗GPT(ChatGPT)’를 시장에 내놓았다. 챗GPT는 오픈에이아이의 AI 모델인 ‘GPT-3.5’를 대화 방식으로 사용할 수 있게 만든 챗봇(chatbot)이다.

챗GPT는 언어와 문자로 표현할 수 있는 것이라면 논문, 보고서, 문학, 코딩 등 분야를 가리지 않고 수준 높은 결과물을 만든다. 그래서 챗GPT 또는 GPT-3.5를 ‘생성형 AI(generative AI)’라고 한다. 챗GPT가 열어준 생성형 AI 시대를 맞이하여 우리는 어떠한 준비를 해야 할까?

국회입법조사처는 챗GPT의 특징과 국내외 동향을 살펴보고 인공지능 분야에서의 향후 과제를 모색하기 위해 '챗GPT의 등장과 인공지능 분야의 과제'라는 제목의 『이슈와 논점』 보고서(저자: 정준화 입법조사관)를 3일 발간했다.

보고서에 따르면 챗GPT는 생성형 AI의 대중화 시대를 여는 계기가 됐다. 해외 기업뿐만 아니라 네이버·카카오 등 국내 기업도 생성형 AI 서비스를 준비 중이다. 생성형 AI는 기존의 자료 제공형 검색서비스를 분석 보고서 제공형으로 전환하고, 인간이 직접 수행하던 지식과 정보의 조사·분석·정리의 많은 부분을 직·간접적으로 도와줄 것으로 예상된다.

보고서는 챗GPT가 생성형 AI 시장을 선점하여 이용자의 초기 피드백을 독점하고 있지만, 아직 시장은 초기 단계이기 때문에 우리 기업에도 충분한 기회가 있다며, 한글에서의 비교우위를 발판으로 국내 기업들이 생성형 AI를 준비 중이지만, 장기적으로 우리나라를 넘어 비영어권 시장으로의 확산도 노려 볼 만하다고 제언했다.

보고서에 의하면, 생성형 AI 시대를 대비하기 위해서는 기업의 꾸준한 노력, 안정적인 AI 개발, 이용 환경 조성을 위한 정부의 정책, 이용자의 적극적이고 현명한 AI 사용이 모두 필요하다.

특히 정부는 초거대 AI 모델 개발의 핵심 자원인 컴퓨팅파워가 원활하게 공급될 수 있도록 공공부문 슈퍼컴퓨터를 확충하고, AI 반도체 기술개발을 지원해야 한다.

또한 AI 학습용 데이터를 확대해 데이터 댐에 담고, 민·관에 축적된 방대한 데이터가 효과적으로 활용될 수 있도록 데이터 유통·거래를 활성화해야 한다.

마지막으로 AI 관련 저작권 규정을 정비하고 이용자의 정보보호·비판적 활용 역량과 함께 기업의 AI 윤리를 높이는 방안도 모색해야 한다고 보고서는 제언했다.

【보고서 요약】

■ 챗GPT의 특징

▶ 초거대 AI

오늘날 AI 알고리즘에는 인간의 뇌를 모방한 기계학습 방식인 심층학습(deep-learning)이 적용된다. 학습을 통해서 도출된 값, 즉 파라미터(parameter, 매개변수)가 많을수록 AI 모델의 성능이 좋아진다.

챗GPT의 두뇌에 해당하는 GPT-3.5에는 1,750억 개의 파라미터가 사용되었다. GPT-3.5와 같이 대량의 파라미터를 적용하는 AI 모델을 ‘대규모 언어 모델(large language model: LLM)’ 또는 ‘초거대 AI’라고 한다. GPT-3.5 외에도 구글의 ‘람다(LaMDA)’, 네이버의 ‘하이퍼클로바(Hyper CLOVA)’와 같은 생성형 AI는 대부분 초거대 AI를 지향한다. 현재 오픈에이아이가 개발중인 ‘GPT-4’에는 100조 개 이상의 파라미터가 사용될 것으로 예상되어 생성형 AI의 대형화는 당분간 지속될 전망이다.

▶ 퓨샷러닝과 챗봇 방식

초거대 AI의 장점은 소량(few)의 학습데이터만 있어도 원하는 결과를 얻는 ‘퓨샷러닝(few-shot learning)’이 가능하다는 점이다. 초거대 AI는 대규모 데이터를 사전학습(pre-training)시켜 공통적인 기본 AI 모델을 만든 다음 그 위에 소량의 데이터만 추가 학습시켜도 정확도가 높은 결과를 제시할 수 있다.

챗GPT는 소량의 학습 데이터를 확보하기 위해 챗봇 방식을 적용한다. 이용자가 대화창에 간략한 지시어(prompt)를 입력하면 챗GPT는 정리된 결과물(텍스트)을 생성한다. 지시어가 효과적일 경우에는 추가적 설명과 학습 없이(zero-shot) 한 번의 채팅만으로 원하는 결과를 얻을 수도 있다.

▶ 생성형 트랜스포머 모델

기존 AI 모델은 여러 장의 사진 중에서 고양이를 찾는 것과 같은 식별(recognition) 기능에 초점을 두었다. 이와 달리 챗GPT는 글, 문장, 단어, 부호와 같은 언어로 결과물을 생성하는 AI 모델이다.

챗GPT가 문장을 생성하는 원리는 특정 단어 다음에 올 가장 적합한 단어를 예측하고 이것을 연결하여 문장을 만드는 것이다. 다음에 올 단어 예측에는 ‘트랜스포머(transformer)’라는 AI 모델이 적용된다. 트렌스포머 모델은 데이터의 입력 정보와 출력 정보를 동시에 처리하는 방식으로, 입･출력 정보를 순차적으로 처리하던 기존의 순환신경망(recurrent neural network: RNN) 방식에 비해 계산 효율성을 크게 높일 수 있다.

■ 챗GPT 등장 이후 국내외 동향

▶ AI 공급 분야: 검색 서비스의 변화 예상

챗GPT 등장 이후 가장 적극적으로 대응하는 기업은 미국의 마이크로소프트다. 자사의 검색엔진 ‘빙(bing)’과 챗GPT를 결합하여 새로운 검색 경험을 제공하고, 클라우드 환경에서 AI를 사용할 수 있도록 클라우드서비스 ‘애저(Azure)’에 GPT-3.5를 탑재하는 방안을 모색하고 있다.

구글은 지금까지 적극적으로 AI 투자를 해 왔고, 초거대 AI 모델인 람다도 보유하고 있지만 상용 AI 서비스인 ‘바드(Bard)’ 발표는 오픈에이아이보다 늦었다. 오픈에이아이가 챗GPT를 발표한 이후 내부적으로 위기 상황임을 뜻하는 ‘코드 레드(Code Red)’를 선포하고 AI 대응 전략을 준비한 것으로 보아 구글도 챗GPT가 검색 시장에 미칠 영향을 상당히 위협적으로 느끼는 것으로 볼 수 있다.

국내 기업들은 한글 서비스에 관해서는 우리 기업이 비교우위가 있다고 보고 초거대 AI 대응 전략을 마련하고 있다. 네이버는 2021년 자체적으로 초거대 AI 모델인 하이퍼클로바를 개발했고, 2023년 상반기에는 한국어에 특화된 생성형 AI 챗봇인 ‘서치GPT’를 선보일 예정이다. 카카오는 초거대 AI 모델인 ‘KoGPT’를 챗봇 조르디, 카카오톡 채널 등과 결합하여 상용 AI 서비스를 제공할 예정이다.

챗GPT는 이용자의 요구 또는 질문에 대한 답을 제시하는 것이어서 기존의 검색 서비스와 지향하는 바가 같다. 차이가 있다면 검색 서비스는 정보의 출처를 제시하여 이용자가 각각의 정보를 찾아 비교･평가하도록 하는데, 챗GPT는 AI가 이 과정을 대신 해준다. 그 결과 챗GPT는 검색 서비스 방식과 주요 사업자의 변화를 초래할 것으로 예상된다.

▶ AI 이용 분야: 인간의 보완 수단으로 기대

챗GPT 이용자들은 대부분 그 능력에 대해서 긍정적으로 평가하며 다양하게 활용하고 있다. 그러나 모든 분야에서 챗GPT가 환영을 받는 것은 아니다. 특히 대학과 같은 교육기관에서 챗GPT 사용은 논쟁적이다. 일부 대학은 모든 수업･과제･평가에 챗GPT 사용을 금지하고, 허가를 받지 않은 챗GPT 이용은 표절로 간주한다고 밝혔다. 이와 달리 어떤 교수는 AI 시대를 살아가는 인간의 역량 함양을 위해 챗GPT 사용을 권장하기도 한다.

챗GPT 이용에 따른 긍정적 효과와 부정적 효과가 병존하지만, 전반적으로 본다면 지금까지의 디지털 혁신과 마찬가지로 인간을 보완하는 역할이 더 클 것이다. 다만, 이용자가 챗GPT를 오･남용할 경우 사회적 가치와 충돌하는 문제를 초래하고, 경우에 따라서는 직업 기회 감소와 같은 실질적 위협에 직면할 수도 있다. 따라서 AI 이용 확대에 따른 사회 질서의 정립과 자원의 재분배 원칙 수립 등이 병행되어야 한다.

■ AI 정책의 과제

▶ 컴퓨팅파워 구축과 AI 반도체 연구개발 강화

초거대 AI 시대의 기업경쟁력, 국가경쟁력을 강화하기 위해서는 대규모 학습데이터를 빠르게 처리하고, 수많은 이용자 질문에 실시간으로 대답할 수 있는 컴퓨팅파워(computing power)를 확보하는 것이 중요하다. 이를 위해 정부는 국가 슈퍼컴퓨터 자산을 확충하고 민간이 이를 초거대 AI 개발에 활용할 수 있도록 ｢국가초고성능컴퓨팅 혁신전략｣에 반영해야 한다.

중장기적 관점에서 AI 반도체 역량 확보도 관건이다. 향후 예상되는 컴퓨팅파워 수요 증가에 효율적으로 대응하기 위하여 AI 모델에 최적화된 AI 반도체 연구개발 지원이 필요하다.

▶ 데이터 구축 확대와 유통･거래 활성화

GPT-3.5와 같은 범용성을 갖춘 초거대 AI 모델을 만들기 위해서는 다양한 분야의 학습데이터를 확보해야 한다. 정부는 지금까지 ‘데이터 댐’ 사업을 통해 AI 학습데이터를 구축했는데 이는 초거대 AI 학습용으로는 여전히 부족하다. 따라서 민간에서 직접 공급하기 어려운 데이터 수요를 파악하여 정부와 공공기관이 보다 적극적으로 학습데이터를 구축할 필요가 있다.

이와 함께 민･관의 다양한 분야에 축적되어 있는 방대한 데이터가 초거대 AI 모델 학습에 활용될 수있도록 데이터 유통･거래를 활성화시켜야 한다.

▶ 안심하고 AI를 이용할 수 있는 환경 조성

이용자의 정보보호 인식과 실천도 중요하다. 생성형 AI를 이용하는 과정에서 무분별하게 본인 또는 주변인의 개인정보, 기업･기관의 비밀 등을 입력하지 않아야 한다.

이용자의 비판적 활용 능력을 높여야 한다. 생성형 AI는 확률적으로 ‘적절’한 표현을 생성하는 것이지 ‘정확’한 내용을 찾아주는 것은 아니다. 전혀 존재하지 않는 내용을 그럴듯하게 표현하는 환각(hallucination)이 종종 발생하기도 한다. 따라서 이용자는 생성형 AI의 결과물이 사실과 다를 수 있다는 점, 그래서 책임 있는 결정에 직접 활용하기 어렵다는 점을 명확하게 인지하고 있어야 한다.

마지막으로, 학습한 데이터의 편향성･불충분성 등으로 인해 인간에게 유해하거나 윤리적이지 못한 내용이 여과 없이 표출되는 문제를 경계해야 한다. 따라서 AI 사업자는 AI 윤리규범을 생성형 AI의 개발 및 사업화에 적극적으로 반영할 필요가 있다.

고현석 기자 다른기사 보기