생성형AI, 네이버 AI의 헬스케어 분야의 역할
작성자
유한주Issue 44
2024-10소속
네이버클라우드 주식회사 Healthcare AI LAB<초거대AI의 확산>
올해 초 OpenAI사는 GPT-4o를 공개하였고, 이는 인간과 유사한 수준의 상호작용 능력을 보여주어 많은 놀라움을 선사했습니다. 이 외에도 다양한 기관과 회사에서 고성능 초거대AI들이 쏟아지며 우리의 상상을 뛰어넘는 가능성을 보여주었고, 영화 속 인공지능 비서들의 모습이 더 이상 상상 속 산물이 아님을 깨닫게 해주었습니다. ChatGPT로 널리 알려지게 된 OpenAI사의 GPT(Generative Pre-trained Transformer) 시리즈는 2018년 처음 학계에 소개된 이후로 폭발적인 관심을 받아왔으며 이에 기반한 각종 초거대AI 모델들은 자연어 처리와 추론 능력의 비약적 진보를 통해 인간과의 대화는 물론, 복잡한 수학 문제 풀이와 같은 고차원적 사고 능력까지 보여주고 있습니다. 초거대 AI는 이러한 능력에 힘입어 다양한 산업 분야에 혁신을 가져오고 있으며 의료 역시 GPT-4를 비롯해, 의료특화 초거대AI인 Med-PaLM, Med-Gemini, LLaVA-Med 등을 기반으로 환자의 기록 분석, 진단 보조, 치료 계획 수립 등에서 혁신적인 서비스들이 출시되고 있습니다. 네이버 역시 자체 초거대AI인 HyperCLOVA X에 기반하여 각종 헬스케어 서비스들을 구축 중에 있으며 이러한 서비스들은 병원 업무의 효율성을 극대화하여 의료진이 환자에게 더 많은 시간을 할애할 수 있게 함으로써 궁극적으로 환자 치료의 질을 향상하는데 이바지하고 있습니다. 예를 들어, 의료 데이터 분석, 진단 보조, 치료 계획 수립, 환자 모니터링 등 다양한 방면에서 초거대AI 기반 서비스가 혁신적인 역할을 담당할 수 있습니다. 이러한 혁신 사례로 국내외 여러 가지 주목할 만한 서비스들이 존재하고 있으나 이번 기고문에서는 네이버가 HyperCLOVA X가 주로 활용되고 있는 분야들을 중심으로 소개하겠습니다.
(그림 1. 네이버 CLOVA X에서의 멀티모달 사용례)
네이버는 2021년 5월 대중에게 처음으로 HyperCLOVA를 소개한 이후로 네이버 자체 서비스 뿐 아니라 500개 이상 기업들과의 협력을 통해 초거대AI 생태계를 구성하였습니다. 이후 네이버는 2023년 8월, 채팅과 코딩(컴퓨터 프로그래밍) 등의 기능이 강화된 HyperCLOVA X를 공개하면서 대국민 서비스인 CLOVA X, 그리고 AI 기반 사업을 구축할 수 있는 CLOVA Studio를 선보이는 등 B2C와 B2B에서의 큰 잠재력을 보여주었습니다. 현재까지 수십만의 CLOVA X 사용자와 더불어 열한개 분야 약 2,000개의 기관 및 기업이 HyperCLOVA X를 도입하였으며 헬스케어 분야에서도 여러 기관과 협력 중에 있습니다. 네이버는 그동안 직접 시행착오를 거치며 초거대AI의 핵심 기술과 노하우들을 확보하였고 이를 바탕으로 초거대 AI와 관련해 B2C, B2B 영역에서 지속 가능하고 준수한 수준의 기술 서비스를 공급하는 국내 유일 기업으로 자리매김하였습니다. 네이버가 헬스케어 분야 내 초거대AI 적용을 연구하고 있거나 혹은 다양한 고객 및 협력 기관들이 탐색하고 있는 (1) 의료 데이터 정제/표준화/전처리, (2) 건강 상담 및 triaging, (3) 의무기록 요약 및 질의응답, (4) 진료 대화 기반 의무기록 생성, 그리고 (5) 감별진단 및 진단 보조 등으로 나눌 수 있습니다.
1) 의료 데이터 정제/표준화/전처리
의료 데이터 정제/표준화/전처리의 경우 초거대AI 등장 이전부터 전산학 내 자연어처리에서 전통적인 문제였고 나름 유의미한 수준을 달성하였습니다. 하지만 각종 약어와 전문용어, 그리고 한영 혼용 등 의무기록의 복잡성과 전문성, 각 기관마다 상이하게 존재하는 표준 체계 등으로 인해 기술적인 한계에 봉착해 있었습니다. 초거대AI는 기존 방법 대비 비약적 자연어 처리 성능을 바탕으로 이러한 복잡성과 전문성을 다룰 수 있게 되었고, AI 제작사의 역량에 따라 다양한 의료 ontology 간 변환이 가능하게 되었습니다. 특히, 이러한 자연어 처리는 비단 줄글로 이루어진 문장에서 정보를 추출하는 것뿐 아니라, 테이블 형태의 tabular 데이터나 각종 도표 내에서도 특정 정보 항목에 대한 설명 들을 바탕으로 각 정보들이 맺고 있는 연관성 등의 파악이 가능하게 만들었습니다. 이로 인해 각 병원 내 다양한 정보 체계로부터 HL7의 FHIR 인터페이스로의 자동 변환이 가능해져 의료 데이터 활용 측면에서 큰 혁신을 이루고 있습니다. 네이버 역시 CLOVA Data Annotator(이하 CDA)라는 서비스를 통해 데이터 작업자가 AI의 각종 지원을 받아 빠르고 정확하게 데이터를 처리, 변환할 수 있도록 돕고 있습니다. CDA에서는 사람 작업자가 수동으로 라벨링 하거나 미리 기입된 정규표현식 정보들을 AI 학습에 활용하여 다양한 형태의 의료 기록들로부터 entity와 relation을 추출하는 데 AI의 도움을 받을 수 있습니다. 뿐만 아니라 초거대AI에게 직접적으로 명령을 주어 특정 종류, 형태 또는 의미의 요소들을 추출하도록 지시할 수 있습니다. 의료 데이터 정제/표준화/전처리가 대부분의 의료 데이터 연구에서 큰 병목으로 작용하는바, 이러한 서비스와 기능의 발전은 향후 의료 데이터 연구의 속도를 크게 가속화 할 수 있으리라 기대합니다.
(그림 2. 네이버 CLOVA Data Annotator 화면 예시)
2) 건강 상담 및 triaging
HyperCLOVA X는 지식인 및 각종 의학 백과사전 등 전문가가 작성한 답변을 학습하였기에 한국인 특성에 맞는 건강 상담 진행이 가능합니다. 다만, 법적, 윤리적 요인을 고려하여 진료 및 의료적 조언으로 간주될 수 있는 답변에 대해서는 기술적 식별 조치 및 답변 거부 양해 멘트를 출력하고 있습니다. 네이버에서는 이러한 HyperCLOVA X의 기본 기능을 바탕으로 각 기관 및 고객의 수요에 맞춰 이용자 profiling, 이용 history 및 대화 context 정보 유지 등을 종합적으로 고려, 초개인화된 건강 상담 기능을 직접 또는 협력 기관들과 함께 구축제공하고 있습니다. 이와 더불어, 사내 병원 의료진과의 협업을 통해 사내 병원 이용 임직원 대상으로 triaging을 자동화하고, 그 결과에 따라 의무기록 초안을 작성하는 기능을 Smart Survey라는 이름으로 내부 서비스 운영 중입니다. 이를 통해 종이 설문 수행이나 예진 등에 소요되는 시간을 비약적으로 단축하였습니다.
3) 의무기록 요약 및 질의응답
초거대AI의 대표적인 사용례 중 하나는 참고 문서 기반 요약 및 답변 생성이며 여러 분야에서 두각을 나타내고 있습니다. 특히, 연구 분야에서 각종 논문이나 사료를 요약 정리하고 사용자의 질문에 대해 정확한 답변을 생성하는 연구 보조원 에이전트 개발이 활성화되고 있는데, 의료 역시 이러한 에이전트의 도입이 가시화되고 있습니다. 다만, 의료의 경우 답변 생성을 위해 전문가에 준하는 전문 지식이 필수적이고, 생성되는 답변 역시 요구되는 정확도가 매우 높기 때문에 아직은 연구 개발 단계에 머물러 있습니다. 네이버는 KAIST와 함께 이러한 기능의 개발 및 성능 평가와 관련해 활발히 협력 중이며 문제 정의 및 성능평가 방법 발굴, 다중 문서 기반 고난도 답변 생성 등에서 연구적 성과를 만들었습니다. 네이버는 올해 내에 실제 임상 현장에서 활용 가능한 수준의 의무기록 파악용 AI 에이전트를 구축하고자 이를 외부 의료기관에서 실증하고자 노력하고 있습니다.
4) 진료 대화 기반 의무기록 생성
네이버는 세계 최고의 음성인식 기술을 보유하고 있다 보니 국내외 다수의 의료기관으로부터 외래 진료 대화를 바탕으로 의무기록을 자동 작성하는 기능에 대한 문의를 자주 받았습니다. 네이버는 이를 Voice EMR이란 상품으로 개발 중이며 사내 병원에서의 베타 테스트를 거쳤고 연내 외부 의료기관 실증을 수행하고자 합니다. Voice EMR은 진료실 또는 응급실 내에서 환자와 의료진 간 대화를 마이크 통해 청취한 후, 이를 음성인식 및 의무기록으로의 작성을 수행하는 AI 서비스입니다. 이러한 서비스를 통해 의료진은 진료 과정 중 의무기록을 작성해야 하는 수고에서 벗어나거나, 혹은 진료 행위가 끝난 이후 기억을 더듬어 의무기록을 작성하면서 발생하는 오류들로부터 벗어날 수 있습니다. 이는 곧 의무기록 품질의 향상을 가져올 것이며 결과적으로 의료 서비스 질 향상에 기여할 것으로 기대하고 있으나, 무엇보다도 의료진의 번아웃(burn-out)을 해결하는데 많은 기여를 할 것으로 기대하고 있습니다. 하여, 외부 의료기관 실증에서는 생성된 의무기록의 정확성, 적확성과 더불어 실제 의료진이 기록에 소요하는 시간이 얼마나 경감되는지도 함께 파악하고자 합니다.
(그림 3. CLOVA Voice EMR 화면 예시)
5) 감별진단 및 진단 보조
초거대AI의 발전은 감별진단 및 진단 보조 분야에도 큰 변화를 불러오고 있습니다. HyperCLOVA X와 같은 초거대AI 모델은 방대한 의학 지식을 학습하고 복잡한 임상 정보를 종합적으로 분석할 수 있는 능력을 갖추고 있어, 의료진의 진단 과정을 효과적으로 지원할 수 있습니다. 이러한 AI 시스템은 환자의 증상, 검사 결과, 의료 이미지 등 다양한 데이터를 통합적으로 고려하여 가능성 있는 진단들을 제시하고, 각 진단에 대한 근거를 함께 제공함으로써 의료진의 의사결정을 도울 수 있습니다. 때문에 초거대AI를 제공하는 OpenAI, Google, Microsoft 등 많은 빅텍크 기업 및 연구 기관에서는 초거대AI의 의학적 추론 능력에 대해 의사 자격 고시 문제 풀이 등으로 그 성능을 평가하고 공개하며 활용 가능성을 가늠하고 있습니다. 네이버는 HyperCLOVA X를 기반으로 한 감별진단 및 진단을 보조하는데 초거대AI를 활용하는 연구를 진행 중에 있으며, 이를 통해 의료진들이 보다 정확하고 신속한 진단을 내릴 수 있도록 지원하고자 합니다. 특히, 희귀 질환이나 복합적인 증상을 가진 환자의 경우, AI의 광범위한 지식 기반과 패턴 인식 능력이 큰 도움이 될 수 있습니다. 다만, 이러한 시스템의 실제 임상 적용에 있어서는 높은 수준의 정확성과 신뢰성이 요구되므로, 여러 의료기관 및 전문가들과의 긴밀한 협력을 통해 시스템의 성능을 지속적으로 검증하고 개선해 나가고 있습니다. 또한, 네이버는 이러한 진단 보조 시스템이 단순히 진단 제안에 그치지 않고, 의료진에게 관련 최신 연구 결과나 치료 가이드라인 등을 함께 제공함으로써 종합적인 의사결정 지원 도구로 발전할 수 있도록 노력하고 있습니다. 이를 통해 의료진은 보다 폭넓은 정보를 바탕으로 환자 개개인에게 최적화된 진단과 치료 계획을 수립할 수 있을 것으로 기대됩니다. 네이버는 이러한 초거대AI 기반의 감별진단 및 진단 보조 시스템이 의료의 질을 향상시키고, 의료진의 업무 효율성을 높이는 데 크게 기여할 것으로 전망하고 있습니다. 그러나 동시에 AI의 판단이 의료진의 전문성과 경험을 대체하는 것이 아니라, 이를 보완하고 강화하는 도구로 활용되어야 함을 강조하고 있습니다. 앞으로도 네이버는 의료계와의 지속적인 협력을 통해 AI 기술이 환자 진료에 안전하고 효과적으로 적용될 수 있도록 노력할 것입니다.
<향후 전망 및 결론>
생성형 AI와 HyperCLOVA X는 앞으로 더욱 발전할 것으로 기대됩니다. 기술의 발전과 함께 헬스케어 분야에서도 더 많은 혁신이 이루어질 것입니다. 하지만 이러한 기술 발전에는 몇 가지 도전 과제도 존재합니다. 첫째, 데이터의 품질과 보안 문제입니다. 의료 데이터는 매우 민감한 정보이기 때문에, 이를 안전하게 관리하고 활용하는 것이 중요합니다. 둘째, AI의 안정성 및 윤리 문제입니다. 생성형 AI가 생성한 결과물이 항상 신뢰할 수 있는 것은 아니기 때문에, 이를 검증하고 관리하는 시스템이 필요합니다. 이를 위해서는 고도의 엔지니어링뿐 아니라 사람이 개입하는 체계적 절차도 마련되어야 합니다. 이는 국내에서 가장 풍부한 경험을 보유한 네이버에게도 쉽지 않은 일입니다. 이를 위해 네이버 내 수백 명의 연구원들이 불철주야 초거대AI를 연구하고 있으며, 이러한 노력이 결실을 맺어 더 나은 의료 서비스를 제공할 수 있기를 기대합니다.