国家重点研发计划项目课题(2022YFC3602302)
大语言模型(LLM)是基于Transformer架构和海量数据训练的深度学习模型,具有对话、内容生成和推理能力。LLM赋能智慧检验医学,在检验前、中、后及实验室管理等环节具有多种应用场景。但是,LLM的应用伴随着幻觉、可解释性差等风险,其安全性和有效性亟待严格评估。应用评测体系用于衡量LLM在真实场景中的效果与价值,因此,构建一套科学、全面的应用评测体系至关重要。该文综述了LLM应用评测体系的构成要素,包括评测的维度、指标、评分、数据集、策略及方法,阐述LLM在检验医学领域的应用评测案例,发现评测数据集以公开及模拟数据为主,还面临着决策不透明、缺乏公认标准、隐私及数据安全等挑战。未来将聚焦于构建专用评测框架、采用真实世界数据集、健全应用监管体系及人机协同工作新范式等。探索LLM的应用评测体系,可为LLM在检验医学领域的安全、有效及合规应用提供理论框架与实践参考。
刘涛 综述,杨大干 △ 审校.大语言模型在检验医学中的应用评测体系现状及进展[J].检验医学与临床,2025,22(24):3322-3328