PeMeBench:中文儿科医疗问答基准测试方法

大语言模型在医疗领域显现出巨大的应用潜力,如何评估其在医疗领域中的性能成为挑战。现有医疗评测基准测试多为选择题形式,难以全面和精准地评估模型在儿科医疗场景中的性能。为此,提出首个中文儿科医疗问答基准测试方法——PeMeBench。该方法基于双视角评估维度,参考来自10个儿科疾病系统的诊疗规范类书籍,将儿科医疗问答任务细分为疾病知识、治疗方案、用药剂量、疾病预防和药理作用5个儿科医疗问答子任务,构建超1万个开放式的问答题目,引入一种融合实体召回和检测语句幻觉的多粒度自动化评估方案,旨在对大语言模型在儿科基础医疗领域中的性能进行全面、准确的评估,深入剖析其潜在局限性,为提升医疗服务的智能化水平奠定...

Full description

Saved in:
Bibliographic Details
Main Author: 张芊, 陈攀峰, 冯林坤, 刘淑钰, 马丹, 陈梅, 李晖
Format: Article
Language:zho
Published: China InfoCom Media Group 2024-09-01
Series:大数据
Subjects:
Online Access:http://www.j-bigdataresearch.com.cn/thesisDetails#10.11959/j.issn.2096-0271.2024058&lang=zh
Tags: Add Tag
No Tags, Be the first to tag this record!