智能系统学报 /oa 加速推进智能预测运维技术应用落地 /oa/darticle.aspx?type=view&id=2025-06juanshouyu 2025年11月05 00:00 2025年6期 1294 321599 杨春生 医学大语言模型的研发与应用系统综述 /oa/darticle.aspx?type=view&id=202410020 自2022年11月ChatGPT(chat generative pre-trained Transformer)问世以来,针对医学应用场景的大语言模型(large language models, LLMs)相关研究逐渐成为热点。然而当前缺乏对医学大语言模型研发以及应用现状的系统分析。为了更好地理解这些专门为医学领域设计的LLMs并评估其应用价值,本综述系统分析了截止至2024年6月11日,在PubMed、Google Scholar、arXiv、bioXiv和medRxiv等数据库中发表的为医学领域开发的专有LLMs,同时对LLMs在临床应用场景中的相关应用研究进行了梳理。研究结果表明,当前共计129项研究提出了基于医学相关语料研发的医学LLMs,而基于LLMs在临床应用场景中的应用涵盖了LLMs对医疗咨询的回应、不同模型间的比较、与专业医生的性能对比,以及医疗从业相关人员对LLMs的观点等4类研究内容。综述结果表明,通用型LLMs,如ChatGPT、GPT-4等在生成医疗记录时的准确性和完整性较高,而专门针对某些疾病所研发的LLMs则更擅长回答特定病症的问题,尽管它们的答复在全面性方面可能有所欠缺。医疗专家在辨别LLMs生成的文本与人类医生的文本时可能面临困难,但LLMs对重复提问的回复存在变异性。此外,从医学伦理角度看,LLMs在易读性和可能涉及种族及地域偏见的传播方面存在挑战,而且缺乏从患者或医疗保险提供商视角对LLMs可信度和责任等问题进行评估的研究。 2025年11月05 00:00 2025年6期 1295 1303 4147028 王璐<sup>1,2</sup>, 丁慕菲<sup>1</sup>, 周鹤<sup>1</sup>, 何倩倩<sup>1</sup>, 宋江典<sup>1</sup> 弱监督下语言引导的图像分割与定位综述 /oa/darticle.aspx?type=view&id=202505001 语言引导的图像分割(referring image segmentation, RIS)与定位(referring expression grounding, REG)旨在根据自然语言指令预测目标的掩码或边界框,是视觉-语言理解的重要任务。完全监督方法因标注成本高受限,促使弱监督学习成为研究热点。对此,从统一视角梳理弱监督RIS与REG研究进展,重点介绍仅依赖图像-文本对及无标注数据的方法,并探讨现存问题与未来方向。介绍RIS与REG任务背景,分析弱监督学习的价值与挑战;归纳不同类型的弱监督信号,分类综述代表性方法并分析其特点;介绍主流数据集与评价指标,并比较典型方法性能。研究表明,引入多模态大语言模型等预训练模型可显著提升性能,但仍受限于预训练模型的局限性与任务适配性。未来,优化跨模态细粒度对齐、模型效率与泛化能力将是该领域的重要研究方向。 2025年11月05 00:00 2025年6期 1304 1327 6247520 张磊<sup>1</sup>, 黄咏秋<sup>2</sup>, 李欣<sup>2</sup>, 王宝艳<sup>2</sup> 基于恒定转弯率和加速度模型的点云多目标跟踪算法 /oa/darticle.aspx?type=view&id=202503034 针对简单运动模型在复杂驾驶环境多目标跟踪表现不佳的问题,提出了一种基于恒定转弯率和加速度(constant turn rate and acceleration,CTRA)模型的点云多目标跟踪方法。通过采用包含角速度信息的运动模型来描述目标的运动轨迹,可提高在目标转弯时的跟踪精度。同时,利用检测算法提供的速度信息,在轨迹更新时对物体速度进行校正,以改善在目标速度突变时的跟踪效果。此外,采用基于置信度的两阶段匹配策略,以降低低置信度检测框对跟踪结果的影响。在nuScenes验证集上对所提出的三维目标检测与跟踪算法进行了性能评估,并通过消融实验验证了算法中各模块的有效性。实验结果表明,基于CTRA模型的点云多目标跟踪算法在跟踪精度上优于基于简单模型的算法,在目标转弯和速度突变场景下的跟踪效果显著提升,且跟踪过程中身份切换次数大幅减少。 2025年11月05 00:00 2025年6期 1328 1338 5673038 陆军, 王旭东, 汲广宇, 李杨 融合时空交互特征与犯罪时空关联性的多类型犯罪预测模型 /oa/darticle.aspx?type=view&id=202502022 现有犯罪时空预测模型大多针对单一犯罪类型,导致应用成本较高。为此,本文构建了一种融合时空交互特征与犯罪时空关联性的多类型犯罪预测模型,该模型核心功能模块由时空交互特征提取和多类型联合学习两部分组成,分别负责捕捉环境特征数据中不同类型犯罪的关键特征,以及通过整合不同类型犯罪之间的时空关联性,实现多类型预测的联合优化。基于芝加哥和纽约的抢劫与入室盗窃犯罪数据的实验表明:本文所提模型对抢劫和入室盗窃的预测RMSE(root mean squard error)最低为0.365和0.288,MAE(mean absolute error)最低为0.277和0.226,较基线模型最高可提升31.1%和36.6%。消融实验表明,环境特征数据对模型的预测性能贡献最大,其次为不同类型犯罪之间的时空关联性;所提模型能够有效捕捉环境特征数据对不同犯罪类型的差异化影响,并通过整合犯罪间的时空关联性显著提升模型性能。 2025年11月05 00:00 2025年6期 1339 1354 6171066 李泽卉<sup>1</sup>, 隋晋光<sup>2</sup>, 陈鹏<sup>1</sup>, 单淼轩<sup>1</sup>, 陈嘉琪<sup>1</sup> 分析力学和图神经网络的轨迹预测方法 /oa/darticle.aspx?type=view&id=202501020 轨迹预测旨在通过分析智能体的历史运动数据来预测轨迹。然而,现有深度学习方法因忽略物理约束和运动规律导致可解释性不足。针对此问题,提出一种融合分析力学与图神经网络的轨迹预测模型,利用图神经网络、卷积神经网络和图注意力机制提取目标时空动态特征,结合欧氏距离和相对运动推断交互力,并引入拉格朗日力学对动力学过程和约束进行建模,以生成符合物理规律的轨迹。在Spring-balls数据集上的实验表明,模型在5球10帧短期预测中精度提升14.29%。在更具挑战性的50帧长期预测中,5球和10球场景下的精度分别提升6.25%和4.81%。此外,在人体运动预测中,该模型平均多关节位置误差(mean per joint position error,MPJPE)均优于主流方法,验证了其在长期预测中的更高精度和有效性。 2025年11月05 00:00 2025年6期 1355 1365 3942086 李明晗, 肖阳, 邢向磊 基于非负绞杀的稀疏化ONLSTM及其工业软测量建模 /oa/darticle.aspx?type=view&id=202502004 实际工业过程往往具有多变量、非线性和动态性等特点,建模数据包含过多冗余信息和时序依赖特征,从而导致建模复杂度增加和模型性能下降。因此,提出一种基于非负绞杀的稀疏化有序神经元长短时记忆网络(ordered neurons long short-term memory,ONLSTM)用于工业软测量建模。将非负绞杀收缩系数嵌入ONLSTM输入层权重矩阵,对其进行收缩绞杀,剔除冗余输入节点的同时实现变量选择。将非负绞杀收缩系数与ONLSTM隐藏层权重矩阵相结合,根据不同隐藏神经元重要性设计权重分配规则,剔除网络隐藏层冗余节点及其对应的信息传递通路,进行网络结构稀疏优化。通过数值仿真验证了所提算法的有效性,并将其应用于某火电厂烟气脱硫过程排放净烟气SO<sub>2</sub>浓度预测。实验结果表明所提算法能有效实现变量选择,并在保证预测性能的前提下,使模型结构得到稀疏优化,展现出比较广阔的应用前景。 2025年11月05 00:00 2025年6期 1366 1378 5439255 郭迎宸<sup>1</sup>, 隋璘<sup>1</sup>, 熊伟丽<sup>1,2</sup> 多尺度路由时空注意力的综合能源多元负荷预测 /oa/darticle.aspx?type=view&id=202501003 多元负荷预测是保障综合能源系统(integrated energy systems, IES)稳定运行的关键。现有方法缺乏对电、冷、热等多元负荷的深度挖掘与分析,限制了预测性能。为解决此问题,本文深入剖析多元负荷的统计特征、季节–日内耦合性及与天气因素的相关性,进而提出一种基于多尺度路由时空注意力机制的综合能源多元负荷预测模型。该模型通过多核局域分解以捕获多元负荷的多尺度周期与趋势特征;针对多元负荷间的复杂耦合性及负荷与天气的相关性,设计路由时空注意力机制与多尺度编解码器,生成多尺度周期预测结果,并融合循环神经网络的趋势预测结果以输出最终预测值。基于实测数据集的耦合性分析、消融实验及对比实验表明:相较于 LSTM(long short-term memory)、Transformer、CNN-GRU(convolutional neural network gated recurrent unit)、Autoformer、FEDformer 等主流模型,所提模型在不同多元负荷耦合强度下均具备更优的预测精度。 2025年11月05 00:00 2025年6期 1379 1391 5190200 王德文<sup>1,2</sup>, 张林飞<sup>1</sup>, 苗庆健<sup>1</sup>, 李成浩<sup>1</sup>, 赵文清<sup>1,3</sup> 基于混合分布加权M估计和自适应正则化的随机配置网络 /oa/darticle.aspx?type=view&id=202501023 为提升随机配置网络(stochastic configuration networks, SCNs)的鲁棒性和泛化性,提出了一种基于混合分布加权M估计和自适应正则化的SCN建模方法。采用高斯和柯西混合分布加权M估计获得训练样本的惩罚权重,根据训练数据对模型的贡献度评估其输出权重,以增强模型鲁棒性;根据建模残差变化情况和隐节点数分配合适的L<sub>2</sub>正则化参数,以保证模型具有较好的泛化性。通过4个标准数据集和城市固废焚烧过程的历史数据对该方法的性能进行实验测试。实验结果表明,基于本文所提方法构建的参数模型在鲁棒性和泛化性上相对于其他对比方法具有优势,从而拓宽了SCN的应用范围。 2025年11月05 00:00 2025年6期 1392 1403 3315146 严爱军<sup>1,2,3</sup>, 郝晨<sup>1,2</sup> 改进RT-DETR的金属表面缺陷检测算法 /oa/darticle.aspx?type=view&id=202502021 针对金属表面缺陷检测任务中检测目标小、尺度变化大、背景复杂等问题,提出了一种基于RT-DETR(real-time detection Transformer)的改进模型——HAS-DETR(high accurancy for small object-DETR)。HAS-DETR通过在骨干网络中引入复合差分卷积,增强对小目标的特征提取能力;构建双重多尺度特征融合模块,有效捕获全局语义信息与细节特征,解决目标尺度变化大的问题;设计全局多尺度注意力机制,替代AIFI(attention-based intra-scale feature interaction)模块中的多头注意力机制,提高模型在复杂背景和多尺度目标场景中的鲁棒性和精确度。在金属表面缺陷数据集上,HAS-DETR在mAP50和mAP50-95上分别较RT-DETR提升了6.5%和4.5%;在公开ADPPP数据集上,mAP50提升了2%,mAP50-95提升了1.3%。实验结果表明:HAS-DETR在保持较高检测效率的同时,有效提升了在复杂背景中对小目标的检测精度,具有良好的实际应用前景。 2025年11月05 00:00 2025年6期 1404 1419 6303222 李冰<sup>1,2</sup>, 王月<sup>1</sup>, 张易牧<sup>1</sup>, 魏乐涛<sup>1</sup>, 颉卓凡<sup>1</sup>, 叶猛<sup>1</sup>, 翟永杰<sup>1,2</sup> 基于序列分析的多模态石化VOCs烟羽语义分割 /oa/darticle.aspx?type=view&id=202501034 石化挥发性有机化合物(volatile organic compounds, VOCs)烟羽在红外成像下表现出形态扭曲多变、边缘模糊和半透明的特性,直接使用现有的图像语义分割方法难以提取气体特征,分割效果不佳。为此本文提出一种结合上下文序列图像的多模态石化VOCs烟羽分割方法,利用烟羽边缘的扩散特性提取目标帧的前后帧运动扩散矢量,通过叠加运动信息增强VOCs烟羽边缘特征。利用VOCs在可见光下不成像的特点,设计自适应权重模块融合可见光和红外光图像特征,进一步增强烟羽特征,过滤背景干扰。引入一种基于区域代理的烟羽分割解码器,加强烟羽边缘和中心特征的关联性,同时降低烟羽分割计算量。此外,本文构建了石化VOCs可见光与红外视频数据集,在数据集上的实验结果表明,与基线网络相比,本文方法计算效率提高了1.81帧/s,同时分割精度提高了3.53%。 2025年11月05 00:00 2025年6期 1420 1431 6040949 王子豪<sup>1</sup>, 夏秀山<sup>1</sup>, 曹洋<sup>2</sup>, 张锟宇<sup>3</sup> 基于自适应结构稀疏回归的异常脑电识别方法 /oa/darticle.aspx?type=view&id=202411006 特征约简是提升脑电信号病理解码精度的一种重要手段。然而,目前的异常脑电识别方法通常采用单尺度聚合实现特征降维,并未考虑不同尺度聚合特征之间的互补性,容易导致识别精度不高的问题;此外,现有方法在学习过程中常忽略了脑电数据特征内在的相关结构信息。为此,提出一种基于自适应结构稀疏回归的异常脑电识别模型及其两阶段构造方法。采用自适应局部和全局特征聚合机制来有效融合从原始数据提取的小波统计特征,为高精度脑电信号病理解码提供更具代表性的特征。定义了一种新的正则化稀疏模型,它通过加权L<sub>1</sub>范数约束剔除非重要特征,同时利用加权成对结构正则化实现对高度相关特征的组选择。在实际异常脑电数据集上的实验结果表明,新方法大幅度提高了分类精度和分类结果的稳定性。 2025年11月05 00:00 2025年6期 1432 1443 5067161 吴涛<sup>1</sup>, 刘夏<sup>2</sup>, 孔祥增<sup>2</sup> 空间约束注意力机制的图像分类网络 /oa/darticle.aspx?type=view&id=202505025 针对分类网络中低阶特征提取不充分和特征图空间位置加权不足的问题,本文提出了一种空间约束注意力机制的图像分类网络(spatially constrained attention mechanism for image classification network,SCAM-Net)。SCAM-Net网络以WideResnet-28-10残差网络为基础架构。本文提出空间约束注意力机制(spatial constrained attention mechanism,SCA),通过引入空间约束机制和动态加权策略,显著增强了特征图的空间位置感知能力,使网络能够更精准地聚焦于关键区域,从而优化特征表示质量,提升模型在复杂场景下的判别能力。提出了边缘感知卷积(edge aware convolution,EAConv),通过融合Sobel算子和不同尺寸的卷积核,实现了对跨层次信息的整合,解决了原模型中首层卷积对边缘特征提取能力不足的问题。实验结果表明,在CIFAR-100、CIFAR-10、SVHN和GTSRB 4种数据集上,SCAM-Net相较于基线模型WideResnet-28-10在分类准确率上分别提升了2.43%、0.93%、0.14%和0.91%;同时,相比于性能排名第2的QKFormer网络在4种数据集上的分类准确率分别提高了0.13%、0.10%、0.12%和0.34%。空间约束注意力机制和边缘感知卷积相互协作,使得SCAM-Net在处理图像时能够更准确地关注图像中的复杂细节,有效提升图像分类精度。 2025年11月05 00:00 2025年6期 1444 1460 6749042 姜文涛<sup>1</sup>, 王鑫杰<sup>1</sup>, 张晟翀<sup>2</sup> 结合多面图像特征提取和门控融合机制的多模态方面级情感分析 /oa/darticle.aspx?type=view&id=202503032 针对现阶段多模态方面级情感分析(multimodal aspect-based sentiment analysis, MABSA)模型仅提取单一图像全局特征、忽略关键细节信息的问题,提出一种结合多面图像特征提取和门控融合机制的网络模型。该模型通过构建多面图像特征提取模块,采用跨模态翻译技术,从图像中与情感相关的多个维度生成场景、人脸、物体和颜色文本描述,实现细节信息提取与跨模态信息对齐;设计门控融合交互模块,引入门控机制与交互注意力实现特征间的高效融合交互;为了弥补不同模态间的表示差距,构建融合图片提示的序列信息,将图像特征转换到预训练语言模型(pre-trained language model, PLM)的输入空间中,实现更准确的情感分类。在Twitter-2015和Twitter-2017数据集上的实验表明,该模型较现有模型在准确率和<i>F</i><sub>1</sub>上平均提高0.93%和0.52%,能有效改善情感分类效果。 2025年11月05 00:00 2025年6期 1461 1473 5068815 赵雪峰, 狄恒西, 柏长泽, 仲兆满, 仲晓敏 基于视觉伺服的协作机器人自适应阻抗控制技术 /oa/darticle.aspx?type=view&id=202504008 针对人机共融非结构化环境下协作机器人智能抓取存在目标识别准确率低、抓取框姿态非最优,难以满足动态未知环境下柔顺操作需求的挑战,本文提出基于视觉伺服的协作机器人自适应阻抗控制技术,实现不同刚度与形状物体的柔顺抓取。设计基于残差网络(residual network, ResNet)的改进目标检测算法,通过输入抓取目标的红-绿-蓝-深度 (red-green-blue-depth, RGBD)图生成最优抓取预测框;提出机器人末端夹爪自适应阻抗控制策略,结合模糊控制自适应调节阻抗参数;构建基于视觉伺服的模糊自适应阻抗控制系统,开展不同刚性物体识别与柔顺抓取实验。结果表明,本文所提方法提升了抓取目标识别的泛化性与成功率,提高了操作的柔顺性,相较于现有自适应阻抗控制策略,柔顺指标分别提升了66.3%与45.9%。 2025年11月05 00:00 2025年6期 1474 1482 6237326 解明扬, 吴伟, 徐成永, 屈蔷 聚焦关键信息的目标感知Transformer无人机跟踪 /oa/darticle.aspx?type=view&id=202506030 无人机视觉跟踪是无人机应用的核心技术之一。现有无人机跟踪方法对输入搜索区域进行无差别关注学习,导致特征判别力下降,难以应对无人机场景中复杂的背景干扰。本文提出一种聚焦关键信息的目标感知Transformer无人机跟踪器。构建一个集成特征学习和目标搜索的单流跟踪框架,以增强令牌之间的信息交互。提出一种自适应关系建模机制,通过对目标模板和搜索区域令牌进行关系建模和动态分类,提前终止对背景令牌的处理,聚焦关键目标信息。设计了一个特征聚合模块,保留目标的细节特征,增强特征表示的判别力,并引入时序一致性约束以保证特征的稳定性。在UAV123、DTB70和UavDrak135无人机跟踪基准上的实验表明,所提出的算法在无人机跟踪方面达到了较优的性能。 2025年11月05 00:00 2025年6期 1483 1492 5512523 林淑彬<sup>1,2</sup>, 吴贵山<sup>1,2</sup>, 杨文元<sup>3</sup> 改进Q-learning遗传算法在路径规划中的应用研究 /oa/darticle.aspx?type=view&id=202504016 针对传统遗传算法在路径规划中存在转向角度过大、转向次数过多、易陷入局部最优等问题,提出一种改进遗传算法。首先,提出一种改进种群初始化策略,即先确定一个过渡点,生成一条从起点到过渡点的路径和一条从过渡点到终点的路径,再将两条路径首尾相连成一条从起点到终点的路径,以生成优秀初始种群,提高前期搜索效率;其次,采用模拟退火算法与区域划分种群相结合的改进锦标赛选择策略,增加种群多样性,防止陷入局部最优;最后,设计一种Q-learning算法与交叉和变异相结合的策略,通过与环境交互,不断学习并优化动作选择策略以此提高算法的全局搜索能力,得到更优种群。路径规划仿真结果表明:相比传统遗传算法、改进自适应遗传算法和改进灾变遗传算法,本文所提改进遗传算法能减少路径长度和转向角度,降低转向次数,从而搜索到更优的路径。 2025年11月05 00:00 2025年6期 1493 1504 4872657 张泽宇<sup>1</sup>, 王雷<sup>1</sup>, 蔡劲草<sup>1</sup>, 夏强强<sup>2</sup> 认知机器影响人类对自身的认知——顺便回答辛顿的担忧并解读哈撒比斯的宇宙观 /oa/darticle.aspx?type=view&id=202509013 人类对人工智能的焦虑,本质上是对人类自身不确定性、不可控性的一种投射。本文厘清认知的机器是无细胞、无新陈代谢、无意识情感的物理装置,强调人工智能的工具性而非生命性,可以起到很好的“祛魅”作用。 “物质、能量、结构、时间四要素说”是统揽人的认知和机器的认知的第一性原理,人的智能和机器的智能,物理同源,数学同构,时间同序,本质同一。人类正借助人工智能重新认识自己。 2025年11月05 00:00 2025年6期 1505 1507 1582273 李德毅 融合多实例学习与注意力机制的异构体功能预测方法 /oa/darticle.aspx?type=view&id=202410005 基因功能的高分辨率注释是功能基因组学的核心任务。单个基因可变剪接产生的异构体(isoform)翻译出多种蛋白质变体,为生物体提供了功能多样性。为实现异构体功能的高分辨率注释,本文提出了一种方法LossIsoFun。引入基因本体(gene ontology,GO),并利用图卷积神经网络(graph convolutional network,GCN)保留其层次结构和语义信息,通过GO网络嵌入策略获得压缩的基因GO注释。融合异构体互作网络、共表达网络和序列相似性网络,构建异构体功能网络,并将异构体序列数据与功能网络输入GCN,获取异构体功能的低维表示。通过基因与异构体的关联关系,得到基因功能的低维表示。提出一种基于注意力权重的损失函数,通过最小化压缩的基因GO注释与基因功能低维表示之间的差异来训练模型。通过解压缩异构体的低维表示,获得异构体的高分辨率注释。在人类基准数据集上的对比实验验证了LossIsoFun的有效性。 2025年11月05 00:00 2025年6期 1508 1519 5169171 郭茂祖<sup>1,2</sup>, 周遨宇<sup>1,2</sup>, 段然<sup>1,2</sup> 基于大语言模型的推荐系统综述 /oa/darticle.aspx?type=view&id=202410007 随着社交网络平台和电子商务平台的崛起,工业级个性化推荐系统在移动互联网时代的作用日益显著,对提升用户浏览体验、购物体验以及扩大用户规模起到了不可替代的作用。在推荐系统中,模型发挥着至关重要的作用。随着算力和数据量的增长,模型结构呈现复杂化、大型化趋势,推荐精准度相较于传统推荐模型也有显著提升。以 GPT和DeepSeek 为代表的大语言模型(large language model,LLM), 不仅显著改善了语言模型的效果,而且助推了提示工程等训练范式的发展。LLM所具备的语义理解和内容生成能力,使其在工业级推荐系统中的落地应用正处于快速发展阶段。本文对LLM和推荐系统的结合点进行调研,梳理了LLM与工业级推荐系统的结合方式,并提出了对LLM和推荐系统结合的展望,以期利用LLM技术提升推荐模型的训练、推理效率和效果。 2025年11月05 00:00 2025年6期 1520 1533 5361573 谢广明<sup>1</sup>, 白彦冰<sup>1</sup>, 吴子昂<sup>2</sup>, 张艳玲<sup>2</sup>