[1]柳泽明,程子豪,刘晶晶,等.中文多技能对话评估[J].智能系统学报,2025,20(5):1281-1293.[doi:10.11992/tis.202411001]
LIU Zeming,CHENG Zihao,LIU Jingjing,et al.Evaluation of Chinese multiskill dialogues[J].CAAI Transactions on Intelligent Systems,2025,20(5):1281-1293.[doi:10.11992/tis.202411001]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
20
期数:
2025年第5期
页码:
1281-1293
栏目:
人工智能院长论坛
出版日期:
2025-09-05
- Title:
-
Evaluation of Chinese multiskill dialogues
- 作者:
-
柳泽明, 程子豪, 刘晶晶, 杨晓, 郭园方, 王蕴红
-
北京航空航天大学 计算机学院, 北京 100191
- Author(s):
-
LIU Zeming, CHENG Zihao, LIU Jingjing, YANG Xiao, GUO Yuanfang, WANG Yunhong
-
School of Computer Science and Engineering, Beihang University, Beijing 100191, China
-
- 关键词:
-
多技能对话; 对话评估; 闲聊; 开放域对话; 对话推荐; 画像聊天; 知识对话; 大语言模型
- Keywords:
-
multiskill dialogue; dialogue evaluation; chit-chat; open domain dialogue; conversational recommendation; persona-chat; knowledge-grounded dialogue; large language model
- 分类号:
-
TP39
- DOI:
-
10.11992/tis.202411001
- 摘要:
-
准确评估多技能对话系统的能力,对满足用户多样化的需求,例如社交闲聊、深入的知识对话、角色化聊天以及对话推荐至关重要。现有的基准仅针对特定对话技能的评估,无法有效地同时评估多种对话技能。为解决这一问题,本文构建了一个中文多技能评估基准(multi-skill dialogue evaluation benchmark, MSDE),它包含1 781个对话和21 218条话语,覆盖4类常见的对话任务,即闲聊、知识对话、画像聊天和对话推荐。然后,本文基于MSDE做了大量实验,并分析了自动评估指标和人工评估指标的相关性。实验结果表明:1)在4类对话任务中,闲聊最难评估,知识对话最容易评估。2)不同指标在MSDE上的表现存在明显差异。3)对于人工评估,各指标在不同对话任务上的评估难度不同。部分数据发布在https://github.com/IRIP-LLM/MSDE,全部数据将在整理后发布。
- Abstract:
-
The accurate evaluation of the capabilities of a multiskilled dialogue system is important to satisfy the different demands of users, including social banter, profound knowledge-based discussions, role-playing conversations, and dialogue recommendations. Current benchmarks concentrate on assessing specific dialogue skills and cannot efficiently evaluate multiple dialogue skills concurrently. To facilitate the evaluation of multiskill dialogues, this study establishes a Chinese multiskill evaluation benchmark, which is the Multi-Skill Dialogue Evaluation Benchmark (MSDE). MSDE contains 1,781 dialogues and 21,218 utterances, which cover four common dialogue tasks: chit-chat, knowledge dialog, persona-based dialog, and dialog recommendations. We performed extensive experiments on MSDE and examined the correlation between automatic and human evaluation metrics. Results indicate that (1) among the four dialogue tasks, chit-chat is the most difficult to analyze, while knowledge dialogue is the easiest; (2) significant differences exist in the performance of various metrics on MSDE; (3) for human evaluation, the analysis complexity of each metric differs across varying dialogue tasks. Certain data will be made available on https://github.com/IRIP-LLM/MSDE, and all data will be released after sorting.
备注/Memo
收稿日期:2024-11-1。
基金项目:国家重点研发计划项目(2023YFF0725600);国家自然科学基金项目(62406015).
作者简介:柳泽明,助理教授,博士,中国中文信息学会大模型与生成专业委员会委员,中国中文信息学会具身智能专业委员会(筹)副秘书长和创始委员。主要研究方向为自然语言处理、对话系统、大模型、具身智能。主持国家自然科学基金、国家重点研发计划青年科学家项目任务、CCF-百度松果基金、多个校企科研合作项目等。获北航卓越青年学者、中国国际大学生创新大赛北京赛区“优秀创新创业导师”等。获发明专利授权10项,发表学术论文40余篇,包括第一作者和通信作者论文20余篇。E-mail:zmliu@buaa.edu.cn。;程子豪,主要研究方向为自然语言处理和工具学习。E-mail:zihaocheng@buaa.edu.c。;王蕴红, 教授,北京航空航天大学计算机学院院长,中国人工智能学会智能交互专委会主任、中国人工智能学会常务理事、中国图象图形学学会常务理事,国际电气与电子工程师学会会士、国际模式识别协会会士、中国计算机学会会士、中国人工智能学会会士。先后主持国家高技术研究发展计划项目、 国家重点基础研究发展计划项目、国家自然科学基金项目等项目。曾获得国家技术发明二等奖、中国青年科技奖、北京市教学成果一等奖,曾被科技部授予 863 计划先进个人,入选教育部新世纪优秀人才计划。获得国际模式识别学会女性科学家Maria Petrou 奖,是该奖设立以来第一位获得此奖项的华人。获发明专利授权 30 余项,发表学术论文 200 余篇。E-mail:yhwang@buaa.edu.cn。
通讯作者:王蕴红. E-mail:yhwang@buaa.edu.cn
更新日期/Last Update:
2025-09-05