智能系统学报 /oa 人工智能时代的“三人”共舞 /oa/darticle.aspx?type=view&id=202508010 2025年09月05 00:00 2025年5期 1053 321640 任福继 智慧教育中的大语言模型综述 /oa/darticle.aspx?type=view&id=202406040 近年来,人工智能技术在教育领域的广泛应用正逐步革新现代教育的模式,教育面临新的机遇和挑战。特别是随着大语言模型的兴起,人工智能有望融入到教与学的过程中,教育模式由传统的师–生二元模式正转变为师–生–机三元模式。文章以教育领域内应用的大语言模型为研究焦点,介绍了大语言模型在教育中的特点。以当前主流的几种大语言模型为例,详细阐述这些模型在教育中的实际应用情况,总结了目前教育大模型的共性以及差异性特点。还探讨了如何开发和训练满足教育需求的定制化大语言模型,这一过程对实际应用至关重要。基于训练完成的教育大模型,进一步阐释了其存在的局限性,并展望了未来教育领域可能出现的新型大模型及其发展趋势。 2025年09月05 00:00 2025年5期 1054 1070 3908176 肖建力<sup>1</sup>, 黄星宇<sup>1</sup>, 姜飞<sup>2</sup> 基于模糊系统的第三代人工智能 /oa/darticle.aspx?type=view&id=202407011 人工智能经历了第一代人工智能和第二代人工智能2个发展阶段,2个阶段的人工智能分别运用以控制逻辑为核心的知识驱动和以数据学习为核心的数据驱动建构算法系统,以模拟人类的生物智能。2种路径各有优势,但存在算力有限和可解释性缺陷等缺点,第三代人工智能理论与方法正致力于发展抗噪、鲁棒且可解释的人工智能。为实现这一目标,详细讨论了基于知识驱动和数据驱动相融合的第三代人工智能的建模方法,并在此第三代人工智能的基础上,探讨将模糊系统与第三代人工智能相结合,充分利用模糊系统鲁棒性与可解释性强的优势,推动第三代人工智能的发展,希望对未来第三代人工智能发展具有一定借鉴意义。 2025年09月05 00:00 2025年5期 1071 1081 4265129 陈德旺<sup>1</sup>, 王蕊<sup>1</sup>, 孔令坤<sup>2</sup>, 韩泽明<sup>1</sup> 基于阶梯式特征融合的输电线路外力破坏检测 /oa/darticle.aspx?type=view&id=202406045 针对输电线路巡检中无人机拍摄角度下器械易形变及带臂机械不同工作状态下特征复杂难以捕获的问题,提出一种基于阶梯式特征融合的外力破坏检测方法。该方法首先通过融合可变形大卷积核注意力网络提取无人机拍摄图像的特征信息;其次,利用多尺度序列特征融合模块进行阶梯式特征融合;然后,对检测头进行轻量化操作以减少参数量;最后,提出渐变完全交并比抑制(gradual complete intersection over union non-maximum suppression, GCIoU NMS)损失函数优化模型。在自建数据集上的实验表明,该方法的mAP50%和mAP50%-95%分别提高10.5和10.2百分点,达到86.8%和58.4%;在VOC数据集上,mAP50%和mAP50%-95%分别提高7.3和8.1百分点,达到79.5%和58.8%。实验结果表明,该方法有效提升了目标检测性能,对复杂环境下输电线路外部破坏检测具有重要参考价值。 2025年09月05 00:00 2025年5期 1082 1092 6151618 赵文清<sup>1,2</sup>, 蔡建颖<sup>1</sup>, 李赛辰<sup>1</sup> 基于自适应分位数的离线强化学习算法 /oa/darticle.aspx?type=view&id=202410016 离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL (datasets for deep data-driven reinforcement learning) 数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。 2025年09月05 00:00 2025年5期 1093 1102 5255054 周娴玮, 王宇翔, 罗仕鑫, 余松森 融合图模糊信息的受限玻尔兹曼机 /oa/darticle.aspx?type=view&id=202412008 为了解决受限玻尔兹曼机表示能力不足的问题,提出融合图模糊信息的受限玻尔兹曼机模型。首先将限制经典受限玻尔兹曼机学习能力的精确值参数,扩展为可以对信息进行多维度刻画的图模糊数。其次结合精确度函数的思想对图模糊自由能量函数去模糊化,进而构建了新的优化目标及学习算法。最后,基于多个基准数据集上的多角度对比分析,证明了新模型可以有效地提升经典模型及多种扩展模型的表示能力与泛化能力。 2025年09月05 00:00 2025年5期 1103 1111 3932836 黄晓珂<sup>1</sup>, 刘海涛<sup>1,2</sup>, 汪培庄<sup>2</sup> 融合多维特征的电诈犯罪时空预测研究 /oa/darticle.aspx?type=view&id=202412025 对空间内电信网络诈骗犯罪发案进行预测能够有效提升精准反诈工作效能。然而,现有方法受到发案时序数据存在稀疏性和周期性的影响,以及空间环境特征因子异质性限制的挑战,导致面向电信网络诈骗发案量的预测效果不佳。为此,提出一种融合多维特征的电信网络诈骗犯罪时空预测模型(multidimensional feature-integrated telecom fraud spatiotemporal prediction model, MF-TSP)。结合区域空间拓扑图构建空间环境特征因子筛选模块,有效融合预测目标空间的邻域发案特征;运用时间滑动窗口技术,并引入多维时序特征捕捉模块和倒置Transformer(inverted transformers, iTransformer)模块,克服了发案时序数据稀疏问题,同步实现了对序列周期性、全局依赖关系及多变量间复杂相关性的有效捕捉;通过进一步深度时空特征融合和非线性映射,显著提升了犯罪发案量的预测精度。实验结果表明,提出的MF-TSP模型在B市电信网络诈骗犯罪发案真实数据集上,在3种不同输入时间步长条件下均表现最佳,明显优于7种对比模型。 2025年09月05 00:00 2025年5期 1112 1122 5231296 周璟昊<sup>1</sup>, 石磊<sup>2</sup>, 石拓<sup>3,4</sup>, 陈鹏<sup>1</sup> 基于提案增强的解耦特征挖掘旋转检测器 /oa/darticle.aspx?type=view&id=202410017 小而杂乱的物体交织在一起,在遥感图像中尤为常见,给目标检测带来了巨大挑战。在旋转目标检测任务中这个困难更加突出。鉴于此,本文提出了基于提案增强的解耦特征挖掘旋转检测器(decoupled feature mining rotational detector based on proposal enhancement, PDMDet)。首先,采用单阶段检测器取代两阶段检测器的提案生成网络,通过生成高质量提案以减少背景冗余。其次,在相同维度使用自注意力,不同维度使用交叉注意力,通过对相同维度特征增强,不同维度特征交错融合提升检测器对不同尺寸目标的识别能力。最后,鉴于分类和定向边界框回归任务对特征的敏感性不同,本文提出解耦特征细化处理两个不同任务。通过实验,PDMDet在DOTA-v1.0、DOTA-v1.5和HRSC2016这3个数据集上分别取得单尺度78.37%、72.35%、98.60%的平均精度均值,检测准确率高于其他算法,在复杂的旋转目标检测场景具有一定的竞争力。 2025年09月05 00:00 2025年5期 1123 1135 8203237 赵振博<sup>1</sup>, 付天怡<sup>1</sup>, 董红斌<sup>1</sup>, 张小平<sup>2</sup> 基于多教师自适应知识蒸馏的TSK模糊分类器 /oa/darticle.aspx?type=view&id=202410028 目前层次型或深度模糊系统性能优异,但是模型复杂度较高;而基于蒸馏学习的轻量型TSK(Takagi-Sugeno-Kang)模糊分类器主要以单教师知识蒸馏为主,若教师模型表现不佳,则会影响蒸馏效果和模型的整体性能;此外,传统的多教师蒸馏通常使用无标签策略分配教师模型输出的权重,容易使低质量教师误导学生。对此,本文提出了一种基于多教师自适应知识蒸馏的TSK模糊分类器(TSK fuzzy classifier based on multi-teacher adaptive knowledge distillation, TSK-MTAKD),以多个具有不同神经表达能力的深度神经网络为教师模型,利用本文提出的多教师知识蒸馏框架从多个深度学习模型中提取隐藏知识,并传递给具有强大不确定处理能力的TSK模糊系统。同时设计自适应权重分配器,将教师模型的输出与真实标签做交叉熵处理,更接近真实值的输出将被赋予更高权重,提高了模型的鲁棒性与隐藏知识的有效性。在13个UCI数据集上的实验结果充分验证了TSK-MTAKD的优势。 2025年09月05 00:00 2025年5期 1136 1147 4157446 张雄涛<sup>1,2</sup>, 陈天宇<sup>1,2</sup>, 赵康<sup>1,2</sup>, 李水苗<sup>2,3</sup>, 申情<sup>1,2</sup> 基于改进Yolov8n的珊瑚白化图像目标检测 /oa/darticle.aspx?type=view&id=202412019 针对海洋环境中珊瑚白化图像特征模糊、背景复杂多变导致的检测精度不足问题,在Yolov8n的基础上,提出了一种基于改进Yolov8n的针对珊瑚白化图像目标检测的Yolov8_CSHC算法。首先,利用防冗余结构紧凑倒置块(compact inverted block, CIB)改进C2f(concatenated feature fusion)模块,减少模型参数量以提高检测速度。其次,在特征融合网络中引入了基于局部注意力增强空间尺度聚合特征的空间金字塔池化网络,可以增强模型对局部细节的感知能力。最后,在特征融合过程中引入级联分组注意力机制,通过将输入特征分割处理,级联输出的方式提高了注意力的多样性和计算效率,使模型可以快速聚焦特征区域。后续引入混合注意力变换器,主要用于单图像超分辨率重建,进一步增强小目标的语义信息和全局感知能力。实验结果表明,在Marjan balance Dataset上,Yolov8_CSHC相较于Yolov8n算法,GFLOPS降低了12%,mAP@0.5-0.95提高了3.6百分点。该算法可以有效地完成海洋珊瑚白化状况的目标检测任务。 2025年09月05 00:00 2025年5期 1148 1157 5113658 韩云涛<sup>1,2</sup>, 刘宇鹏<sup>1</sup>, 胡跃明<sup>3</sup>, 孙宝鹏<sup>1</sup>, 杨佳琪<sup>1</sup> 基于多无人机协作与联邦学习的目标检测与跟踪系统研究 /oa/darticle.aspx?type=view&id=202412031 本文提出了一种多无人机协作系统,旨在在各种环境中实现高效且可靠的目标检测与跟踪。该系统利用先进的协调算法和联邦学习技术来提升性能,确保无人机之间的高覆盖率、低冗余度和有效的任务分配。通过大量仿真实验和实证实验验证了系统在简单与复杂场景(如开阔地与密集的城市区域、夜间与雨天等挑战性条件下)的强大性能。文章使用覆盖率、冗余率、任务分配均衡性、响应时间和跟踪连续性等关键指标来评估系统的有效性。结果表明,系统在较简单的环境中表现优异,同时在更具挑战性的条件下也能保持稳健的性能,但仍存在进一步优化的空间。本文最后讨论了系统的部署策略以及未来工作的方向,特别是在动态和GPS信号缺失环境下提高系统的适应性。 2025年09月05 00:00 2025年5期 1158 1166 5748786 裴佳明<sup>1,2</sup>, 孔伟力<sup>3</sup>, 于长东<sup>4</sup>, 王鲁昆<sup>2</sup> 基于多模态融合的三维目标检测方法研究 /oa/darticle.aspx?type=view&id=202502015 在自动驾驶场景中,由于多模态的融合,三维目标检测效果易受传感器未充分校准的影响,同时,对于目标密集的复杂场景,检测过程中易对目标造成误检,从而降低模型的召回率和检测精度。针对以上问题,设计了多模态融合网络SoftFusion-QC(softfusion with query contrast)用以实现三维目标检测。为了自适应地融合来自激光雷达的点云数据和摄像头捕获的图像信息,提出可变形跨模态特征聚合模块(deformable cross-modality feature aggregate, DCFA),实现深层次的特征融合。为了有效应对传感器校准不足问题,引入查询对比机制(query contrast, QC),通过基于Transformer的查询交互策略和查询框对比学习策略,显著提升了检测的精度和鲁棒性,解决了密集目标检测的误检问题。在nuScenes自动驾驶数据集上,取得了69.8%的mAP(mean average precision)与72.8%的NDS(normalized detection score)。通过定量的性能分析和消融实验验证了算法的有效性。 2025年09月05 00:00 2025年5期 1167 1177 8523245 陆军, 赵颢然, 鲁林超 距离划分下基于一致性协议的符号网络能控性 /oa/darticle.aspx?type=view&id=202405038 针对一般线性多智能体系统研究了符号网络的能控性。首先,聚焦2种不同的leader-follower模型,分析并描述了二者在表现形式上呈现出的差异。其次,基于上述模型,利用首次提出的距离划分这一工具,从网络拓扑的角度定量刻画了网络的能控子空间。进一步,受距离划分的启发,得到了系统<i>K</i>步可控的条件(<i>K</i>步可控是指控制信号在<i>K</i>步之内可达所有节点,<i>K</i>值等于系统的能控性指数)。特别地,针对密集网络(结构更为复杂)拓扑,给出了一种计算系统<i>K</i>值的算法,该算法从图论视角入手,通过遍历和删减边的操作,避免了传统方法中通过复杂的矩阵计算才得到<i>K</i>值的问题,并为领导者的选择提供了方法。最后,通过例子验证了算法的有效性。 2025年09月05 00:00 2025年5期 1178 1187 3859666 赵慧慧, 纪志坚 跨链技术支持下的车联网可信认证系统 /oa/darticle.aspx?type=view&id=202411010 在智能交通系统快速发展的背景下,车联网已成为实现智能化交通管理的关键技术。然而,确保车辆间通信的安全性和隐私保护仍是重要挑战。为此,提出了一种基于跨链技术的车联网可信认证系统。系统集成多种密码学和盲签名技术,设计了基于侧链技术的双链车联网架构,优化车辆与路侧单元间的身份认证和数据交换过程。侧链采用拜占庭共识协议,主链存证与哈希锁定,协同保障跨区域数据一致性与安全性。此外,系统利用智能合约模拟双链结构并实现系统参数的自动更新。基于Fabric的仿真实验表明,该系统相比于传统单链的公钥基础设施(public key infrastructure, PKI)方案,将每笔交易计算开销降低了12%~33%,显著提高认证效率,有效解决了传统车联网中心化认证的不足,同时验证了系统的实用性和可扩展性。 2025年09月05 00:00 2025年5期 1188 1197 4822900 李子欣<sup>1,2</sup>, 施水玲<sup>1,2</sup>, 刘文奇<sup>1,2</sup> 基于深度行为评判策略的5G光伏基站低碳绿能方法 /oa/darticle.aspx?type=view&id=202501024 5G作为新型信息基础设施,正融入千行百业,超宽带技术及万物互联设备的大规模应用增加了网络能耗、运营成本和碳排放。运营统计5G单站功率已达到2 000 W左右,月均电费可达1 000元左右。随着光伏产业的发展,将清洁能源应用到大功耗5G网络已成为网络低碳绿能发展的一种新途径。本文提出了一种基于深度行为评判(deep actor-critic, DAC)策略的5G光伏基站低碳绿能方法,使用光伏能源代替传统的电网火电能源。建立了光伏、蓄电池和电网一体化储能供能模型;为了最大限度节约碳排放,加大绿能供应效率,设计了一种DAC节能策略;构建5G网络节电智能体,引入A3C(actor-critic algorithm)智能体动作奖励模型来操纵蓄电池节能动作;通过求解更好的奖励值,蓄电池可以找到最佳的充放电策略实现低碳绿能。通过对比仿真结果,在不同季节下,相比Q学习及深度Q网络算法,本文方法具有更好的网络节能表现,提高了低碳绿能效率。 2025年09月05 00:00 2025年5期 1198 1206 4456975 邓翠艳<sup>1</sup>, 齐小刚<sup>2</sup> 面向自动问答的藏文动词结尾型数据集构建 /oa/darticle.aspx?type=view&id=202410002 自动问答数据集是研究藏文自动问答技术的重要数据基础。文章针对藏文自动问答数据集匮乏的瓶颈问题,在剖析英文、汉文和藏文自动问答数据集构建现状的基础上,分析了藏文中出现频率最高的动词结尾型句子的问答结构特征,通过构建句子和问句的模板,设计了一种面向自动问答的藏文“动词结尾+位格助词”型数据集构建方案,按照方案构建了面向自动问答的藏文数据集TiQuAD_36414,并采用平均意见得分(mean opinion score, MOS)方法,BiDAF(bidirectional attention flow)、RNet(gated self-matching networks)和QANet(question answering net)模型的F1值和EM(exact match)值验证了数据集的有效性。实验数据表明,本文构建的数据集TiQuAD_36414的质量良好。 2025年09月05 00:00 2025年5期 1207 1216 2794644 张洪溪<sup>1,2</sup>, 才智杰<sup>1,2</sup> 基于自适应梯度调制的音视频多模态平衡学习方法 /oa/darticle.aspx?type=view&id=202412009 针对音视频多模态学习中因异质学习速率导致单一模态主导模型学习过程,抑制其他模态学习,进而削弱多模态协同决策效果的问题,提出一种基于自适应梯度调制的多模态平衡学习方法(adaptive gradient modulation based compensation and regularization, AGM-CR)。首先,根据模态间的学习梯度差异引入调制系数来自适应调整各模态的学习速率;然后,通过梯度均衡化策略,将单个模态的梯度损失作为正则项融入总损失来约束模态间梯度差异,进一步平衡各模态的学习过程;最后,实验结果表明在CREMA-D和RAVDESS数据集上,AGM-CR将分类准确率分别提高了2.5和3.3百分点,并在多次迭代中减小模型的梯度波动,表现出更高的训练稳定性和收敛速度。与现有的平衡方法相比,AGM-CR可即插即用,更具灵活性和通用性。 2025年09月05 00:00 2025年5期 1217 1226 4532998 王忠美<sup>1</sup>, 敖文秀<sup>1</sup>, 刘建华<sup>1</sup>, 贾林<sup>1</sup>, 张昌凡<sup>1</sup>, 彭深奥<sup>1</sup>, 刘金平<sup>2</sup> 机器如何不像人那样认知 /oa/darticle.aspx?type=view&id=202509006 机器如何像人一样认知?又如何不像人那样认知?这是当今人工智能学者必须回答的问题。我们要研发的是受脑科学启发的认知机器,它是物质的、机械的、电子的物理装置,不是类似生物神经元组织的虚拟细胞,并不构成人工生命。<b>生命不能重来,机器则可以重启;机器没有意识但可拥有智能,记忆可以保留而不被遗忘;机器可以暴力思维,物质硬构体很难约束思维软构体想象的范围和内容;机器里的物质硬构体没有新陈代谢,但智能可以不受人具身的生理局限。</b>这些都大大丰富了认知机器的功能和性能,以替代越来越多的人类社会劳动岗位;机器越来越像人,甚至在一些方面远超人。但是,<b>人不能越来越像机器,人更要有新的创造。</b>未来社会,人和机器的认知互补迭代,高效协同,非常重要。<b>机器越智能,人类越智慧;人类智慧引领着机器智能。</b> 2025年09月05 00:00 2025年5期 1227 1231 1645968 李德毅 基于电容层析成像传感器的非接触材质识别研究 /oa/darticle.aspx?type=view&id=202408021 电容层析成像技术(electrical capacitance tomography, ECT)凭借其快速、非侵入性的特性,有效规避了光学成像技术在识别材料特性时面临的光线干扰难题。然而,传统的ECT传感器的研究主要集中在逆问题上,很少有研究考虑通过物体介电分布实现无损的非接触识别。因此,本文设计了一款平面ECT传感器,用于非接触条件下的材质识别。使用基于贝叶斯的轻量级梯度提升机 (Bayesian-light gradient boosting machine, Bayesian-LightGBM)构建了材质预测模型,利用贝叶斯优化算法显著提升了模型的预测性能。实验结果显示在接触时准确率高达95.83%;在距离传感器20 mm以内的非接触条件下准确率达到85.28%。这意味着机器人能够以非接触、无损的方式精准获取环境中的材质信息,为机器人技术在复杂环境中的应用开辟了新的可能性。 2025年09月05 00:00 2025年5期 1232 1242 6887611 许晓丽<sup>1</sup>, 郭旭东<sup>1</sup>, 郑文栋<sup>2</sup>, 刘华平<sup>3</sup> 多双曲空间传递图解耦表示学习 /oa/darticle.aspx?type=view&id=202409034 现有的图表示学习中存在两个问题,一是缺乏对细粒度邻域建模的考量,忽略了邻域节点间纠缠的多重语义;二是图表示学习的空间度量问题,欧氏空间并非是度量节点表示的最优选择。为解决上述问题,提出一种多双曲空间下表征传递预测的全新架构,实现多双曲空间度量下的图解耦表示学习。在该架构下,通过节点表征将原始拓扑结构映射至双曲空间,获得双曲空间下的多分辨率传递矩阵。进一步地,基于混合专家结构设计,视不同分辨率的双曲标签传递网络为专家网络,从而发现由不同潜在因素引发的节点连接模式。在多个真实世界的数据集上的实验结果显示,本文方法在Squirrel和Crocodile数据集上分别达到32.3%和59.5%的分类准确率,可视化实验进一步证明了方法的有效性。 2025年09月05 00:00 2025年5期 1243 1255 4311483 郑帅<sup>1,2</sup>, 彭奏章<sup>1,2</sup>, 朱振峰<sup>1,2</sup>, 赵耀<sup>1,2</sup> 基于二维张量并行策略的大模型加速训练方法 /oa/darticle.aspx?type=view&id=202411023 近期语言模型领域的进展显示,采用Transformer架构的大型预训练模型在自然语言处理应用中表现出优异的技术能力。然而,受限于GPU内存,训练大语言模型(large language models, LLMs)成为了一项挑战。张量并行方法要求单个GPU存储所有激活值,难以突破内存瓶颈。为解决GPU内存对大语言模型训练的制约并提升训练效率,本文提出一种二维张量并行方法(2D tensor parallelism, TP2D)。2D张量并行将输入数据和参数矩阵分割并分配至4个GPU;采用分布式通信,进行GPU间数据的高速交互,实现真正的分布式并行训练。以 GPT-2 模型作为基准模型,测试了两种训练方法的软扩展(soft scaling)效率和训练效率。实验表明,当使用4块GPU时,2D张量并行的训练速度是张量并行的1.84倍,软扩展效率达到86%,并降低了内存占用。 2025年09月05 00:00 2025年5期 1256 1265 3455985 朱仕通, 董琦 基于空频协同的CNN-Transformer多器官分割网络 /oa/darticle.aspx?type=view&id=202409011 针对目前主流的医学多器官分割网络未能充分利用卷积神经网络(convolutional neural network, CNN)的局部细节提取优势以及Transformer的全局信息捕获潜力,并缺乏空频特征协同建模的问题,提出了一种基于空频协同的CNN-Transformer双分支编解码网络。该网络在局部分支中设计了空频协同注意力,使网络从频域和空间域捕获到更为丰富的局部细节信息;在全局分支设计了多视图频域提取器,该模块通过频谱层和自注意力层联合建模,提高了模型的空频特征协同建模能力和泛化性能。此外,设计了局部与全局特征融合模块,有效整合了CNN分支的局部细节信息和Transformer分支的全局信息,解决了网络无法兼顾局部细节和全局感受野的难题。实验结果表明,该架构克服了医学图像中器官边界模糊导致误分割的问题,有效提升了多器官分割精度,同时计算成本更低,参数量更少。 2025年09月05 00:00 2025年5期 1266 1280 7343737 王梦溪<sup>1,2</sup>, 雷涛<sup>1,2</sup>, 姜由涛<sup>1,2</sup>, 刘乐<sup>1,2</sup>, 刘少庆<sup>1,2</sup>, 王营博<sup>1,2</sup> 中文多技能对话评估 /oa/darticle.aspx?type=view&id=202411001 准确评估多技能对话系统的能力,对满足用户多样化的需求,例如社交闲聊、深入的知识对话、角色化聊天以及对话推荐至关重要。现有的基准仅针对特定对话技能的评估,无法有效地同时评估多种对话技能。为解决这一问题,本文构建了一个中文多技能评估基准(multi-skill dialogue evaluation benchmark, MSDE),它包含1 781个对话和21 218条话语,覆盖4类常见的对话任务,即闲聊、知识对话、画像聊天和对话推荐。然后,本文基于MSDE做了大量实验,并分析了自动评估指标和人工评估指标的相关性。实验结果表明:1)在4类对话任务中,闲聊最难评估,知识对话最容易评估。2)不同指标在MSDE上的表现存在明显差异。3)对于人工评估,各指标在不同对话任务上的评估难度不同。部分数据发布在https://github.com/IRIP-LLM/MSDE,全部数据将在整理后发布。 2025年09月05 00:00 2025年5期 1281 1293 4359608 柳泽明, 程子豪, 刘晶晶, 杨晓, 郭园方, 王蕴红