[1]王璐,丁慕菲,周鹤,等.医学大语言模型的研发与应用系统综述[J].智能系统学报,2025,20(6):1295-1303.[doi:10.11992/tis.202410020]
WANG Lu,DING Mufei,ZHOU He,et al.Developing and employing large language models in medicine[J].CAAI Transactions on Intelligent Systems,2025,20(6):1295-1303.[doi:10.11992/tis.202410020]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
20
期数:
2025年第6期
页码:
1295-1303
栏目:
综述
出版日期:
2025-11-05
- Title:
-
Developing and employing large language models in medicine
- 作者:
-
王璐1,2, 丁慕菲1, 周鹤1, 何倩倩1, 宋江典1
-
1. 中国医科大学 健康管理学院, 辽宁 沈阳 110122;
2. 中国医科大学附属盛京医院, 辽宁 沈阳 110004
- Author(s):
-
WANG Lu1,2, DING Mufei1, ZHOU He1, HE Qianqian1, SONG Jiangdian1
-
1. School of Health Management, China Medical University, Shenyang110122, China;
2. Shengjing Hospital of China Medical University, Shenyang 110004, China
-
- 关键词:
-
聊天机器人; 人工智能; 大语言模型; ChatGPT; 医疗保健; 临床诊断; 医疗咨询; 医疗信息学
- Keywords:
-
chatbot; artificial intelligence; large language models; ChatGPT; health care; clinical diagnosis; medical consultation; medical informatics
- 分类号:
-
TP18; R319
- DOI:
-
10.11992/tis.202410020
- 摘要:
-
自2022年11月ChatGPT(chat generative pre-trained Transformer)问世以来,针对医学应用场景的大语言模型(large language models, LLMs)相关研究逐渐成为热点。然而当前缺乏对医学大语言模型研发以及应用现状的系统分析。为了更好地理解这些专门为医学领域设计的LLMs并评估其应用价值,本综述系统分析了截止至2024年6月11日,在PubMed、Google Scholar、arXiv、bioXiv和medRxiv等数据库中发表的为医学领域开发的专有LLMs,同时对LLMs在临床应用场景中的相关应用研究进行了梳理。研究结果表明,当前共计129项研究提出了基于医学相关语料研发的医学LLMs,而基于LLMs在临床应用场景中的应用涵盖了LLMs对医疗咨询的回应、不同模型间的比较、与专业医生的性能对比,以及医疗从业相关人员对LLMs的观点等4类研究内容。综述结果表明,通用型LLMs,如ChatGPT、GPT-4等在生成医疗记录时的准确性和完整性较高,而专门针对某些疾病所研发的LLMs则更擅长回答特定病症的问题,尽管它们的答复在全面性方面可能有所欠缺。医疗专家在辨别LLMs生成的文本与人类医生的文本时可能面临困难,但LLMs对重复提问的回复存在变异性。此外,从医学伦理角度看,LLMs在易读性和可能涉及种族及地域偏见的传播方面存在挑战,而且缺乏从患者或医疗保险提供商视角对LLMs可信度和责任等问题进行评估的研究。
- Abstract:
-
Since the introduction of ChatGPT (chat generative pre-trained Transformer) in November 2022, studies related to large language models (LLMs) for medical applications are increasing; however, a systematic review of this field is lacking. This review covered studies indexed in PubMed, Google Scholar, arXiv, bioXiv, and medRxiv up until June 31, 2024, and identified 129 medical LLMs. LLMs were evaluated in clinical contexts, including their responses to medical queries, performance comparison, and specialist evaluation. The results revealed that general-purpose LLMs, such as ChatGPT and GPT-4, demonstrate better accuracy in generating medical records, whereas disease-specific LLMs excel in niche areas but may lack comprehensiveness. Challenges include variability in responses, readability issues, and biases, with few studies on LLM trustworthiness from patient or insurance perspectives.
备注/Memo
收稿日期:2024-10-15。
基金项目:国家自然科学基金项目(92259104).
作者简介:王璐,博士研究生,主要研究方向为医学数据分析、自然语言处理。发表学术论文论文7篇。 E-mail:luwang@sj-hospital.org。;丁慕菲,硕士研究生,主要研究方向为医学图像处理。 E-mail:dingmuou@163.com。;宋江典,副教授,博士,中国计算机学会数字医学分会执行委员,主要研究方向为医学图像处理与人工智能,主持国家自然科学基金项目2项。发表学术论文34篇。 E-mail:jdsong@cmu.edu.cn。
通讯作者:宋江典. E-mail:jdsong@cmu.edu.cn
更新日期/Last Update:
1900-01-01