首个丨中国信息通信研究院开展医疗健康大模型效能评估工作

真实自我 10-14 66

默认

摘要： 曼联在本赛季英超第轮主场完败于托特纳姆热刺这也是滕哈格执教期间曼联的又一场惨败据统计曼联在滕哈格执教期间已经有次至少球惨败给对手而仅次于他的索尔斯克亚总共也只有场只有他的一半近年来...

曼联在本赛季英超第6轮主场0-3完败于托特纳姆热刺，这也是滕哈格执教期间曼联的又一场惨败。据统计，曼联在滕哈格执教期间已经有10次至少3球惨败给对手，而仅次于他的索尔斯克亚总共也只有5场，只有他的一半。

近年来，党、国务院高度重视以大模型为代表的人工智能技术，《2024年工作报告》中强调要积极推动人工智能在各行各业深度赋能，培育新质生产力，促进产业数字化转型和智能化升级。为促进人工智能与医疗健康的跨界融合，中国信息通信研究院在行业主管部门指导下，按照“标准先行”的工作路径，联合产学研用医各方，共同搭建医疗健康行业大模型标准体系，已形成技术要求、方法及成熟度评估三大系列。

·技术要求系列：包含总体技术要求、应用技术要求、合成服务治理总体要求、安全能力总体要求四个方面。重点关注大模型的基础设施、数据处理、安全治理等通用技术规范；同时聚焦医疗健康领域的特定需求，如医院侧医疗服务、患者侧医疗服务、智慧医保、公共卫生、临床科研、医学教育、健康管理、传统中医等；

· 方法系列：制定大模型性能评估和应用效果验证的标准方法；

·成熟度评估系列：研究面向不同用户提供特定服务的医疗健康行业大模型成熟度模型架构，包含咨询、预防、诊断、、康复等场景。

同时，中国信通院依托系列标准，为多家技术厂商提供医疗健康大模型的能力符合性验证，持续完善评价细则，提升标准实用性和适用性，助力行业大模型规范化、集约化发展。

2024年6月起，中国信通院选取GPT-4T bo、GPT-4O等国外通用大模型，文心一言、通义千问、混元和智谱清言Ch GLM等国内通用大模型，灵医Bot、夸克健康助手、讯飞星火医疗大模型和华佗GPT II等医疗健康行业大模型展开效能评估。通过构建数据集、开展符合性验证和模拟实际应用场景，邀请医疗健康、人工智能领域十余位专家形成评估小组，对参测大模型的多轮问询结果进行准确性、完整性、流畅性、可解释性等维度的综合，考察大模型在多学科知识问答、多形式语言理解、多场景文书生成、多环节辅助诊疗、多轮对话交互、多模态支持等六大方向的实际应用效能，助力医疗健康行业大模型的规范化发展，支持医疗机构选取可信大模型产品，协助技术厂商加快能力提升。

结果显示，通用大模型在医学知识广度方面具有一定优势，医疗健康行业大模型在特定医疗任务上表现优异。

以讯飞星火医疗大模型为例，在个人画像、健康干预方案、病历文书生成及质控、检验检查报告解读、体检报告单解读、药盒解读等细分任务中表现均处于领先，在健康常识、疾病百科、用药知识、电子病历结构化、专业知识生活化、考试辅助智能化、导医导诊便民化、辅助首诊及推荐检验检查、辅助确诊、用药安全指导等方向上均展现高度专业性。

下一步，中国信通院将继续联合医疗机构、科研院所、技术厂商等各界力量，结合动态效能评价工作经验，持续推进医疗健康行业大模型成熟度系列标准研制，建立针对不同医疗任务的大模型成熟度评价细则，确保标准贴合实际应用需求，促进能力提升和应用落地。通过优化评估数据集、构建自动化，打造可信、互信的产业生态，树立产业发展风向标，加强人工智能在医疗健康领域创新应用，释放数字健康经济新动能。