PeMeBench：中文儿科医疗问答基准测试方法

大语言模型在医疗领域显现出巨大的应用潜力，如何评估其在医疗领域中的性能成为挑战。现有医疗评测基准测试多为选择题形式，难以全面和精准地评估模型在儿科医疗场景中的性能。为此，提出首个中文儿科医疗问答基准测试方法——PeMeBench。该方法基于双视角评估维度，参考来自10个儿科疾病系统的诊疗规范类书籍，将儿科医疗问答任务细分为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个儿科医疗问答子任务，构建超1万个开放式的问答题目，引入一种融合实体召回和检测语句幻觉的多粒度自动化评估方案，旨在对大语言模型在儿科基础医疗领域中的性能进行全面、准确的评估，深入剖析其潜在局限性，为提升医疗服务的智能化水平奠定...

Full description

Saved in:

Bibliographic Details
Main Author:	张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖
Format:	Article
Language:	zho
Published:	China InfoCom Media Group 2024-09-01
Series:	大数据
Subjects:	儿科医疗基准测试大语言模型问答
Online Access:	http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024058&lang=zh
Tags:	Add Tag No Tags, Be the first to tag this record!

Be the first to leave a comment!

PeMeBench：中文儿科医疗问答基准测试方法

Similar Items