智能系统学报 /oa 诺奖启示下的下一代遥感解译 /oa/darticle.aspx?type=view&id=202507035 2025年08月05 00:00 2025年4期 762 324521 焦李成 基于惯性测量单元的人体运动意图识别方法:现状与挑战 /oa/darticle.aspx?type=view&id=202407012 人体行为识别(human activity recognition, HAR)利用可穿戴计算、机器学习等技术识别和理解人体行为,在行为跟踪、健康监测及人机交互等领域得到广泛应用,极大提升了当下人类的生活水平。当前可穿戴传感器中,惯性传感器由于其高度小型化、低成本、信号稳定等优势,已经日益成为可穿戴计算领域的主流应用设备。基于此,HAR领域内较多的研究以惯性信号作为数据源,并通过应用深度学习算法,以应对在数据利用率、隐私保护、模型部署等方面的挑战。本文系统地介绍面向HAR的深度学习方法并对现有工作进行了分类和总结,对于当前进展、发展趋势和主要挑战进行了全面分析。首先,本文介绍当前用于HAR研究的主流可穿戴设备及其数据模态,并对各模态数据特点进行介绍。其次,整理近年来常用的HAR数据集,并对各数据集中包含的数据模态、传感器位置、运动种类以及被引用次数等进行汇总。再次,本文从算法特点、应用场景等方面总结了当前HAR领域主要应用的几种深度学习方法的进展。最终,讨论当前HAR领域深度学习面临的挑战与潜在解决方法。 2025年08月05 00:00 2025年4期 763 775 3757064 衣淳植<sup>1</sup>, 贾翊丞<sup>1</sup>, 姜峰<sup>2</sup>, 王修来<sup>3</sup> 基于时空动态图的交通流量预测方法研究 /oa/darticle.aspx?type=view&id=202402012 为改进现有交通流量预测方法在建模时空数据和捕捉动态空间相关性方面的不足,提出了一种时空动态图卷积网络(spatio-temporal dynamic graph network,STDGNet)。该模型采用带嵌入层的编码器–解码器架构,通过动态图生成模块从数据驱动的角度挖掘潜在的时空关系,并重构每个时间步的节点动态关联图。嵌入层使用时空自适应嵌入方法建模交通数据的内在时空关系和时间信息;编码器部分利用时空记忆注意力机制,从全局视角对时空特征进行建模;解码器部分将图卷积模块注入循环神经网络中,以同时捕捉时间和空间依赖关系,并输出未来流量情况。实验结果表明,所提模型与最优基线模型解耦动态时空图神经网络(decoupled dynamic spatial-temporal graph neural network,D2STGNN)相比,平均绝对误差降低了1.63%,模型训练时间缩短了近2.5倍。本研究有效提升了交通流量预测的准确性与效率,为智能交通系统的建设提供了有力支撑。 2025年08月05 00:00 2025年4期 776 786 4618031 孟祥福, 谢伟鹏, 崔江燕 结合多尺度大核卷积的红外图像人体检测算法 /oa/darticle.aspx?type=view&id=202404027 针对废墟环境下红外图像人体检测任务中存在的图像分辨率低且人体特征不明显的问题,基于YOLO框架设计了一种包含重参数化(re-parameterization)和多尺度大核卷积(multi-scale large kernel convolution)的红外图像人体检测网络RML-YOLO(re-parameterization multi-scale large kernel convolution)。该网络通过空间和通道重构注意力模块,将注意值集中到对检测任务更重要的区域。通过Sobel算子强化边缘特征,提高对不同姿态人体的检测能力。RML-YOLO的有效性在自制数据集上得到验证。在只有1.8×10<sup>6</sup>可学习参数的情况下,模型的AP<sub>50</sub>和AP<sub>50-75</sub>分别达到了91.2%和87.3%,与参数量相近的YOLOv8-n相比分别提高了4.4%和5.3%。结果表明,RML-YOLO显著提高了利用红外图像进行废墟环境下人体检测的精度。 2025年08月05 00:00 2025年4期 787 799 4845851 邵煜潇<sup>1</sup>, 鲁涛<sup>2</sup>, 王震宇<sup>1</sup>, 彭勇杰<sup>1</sup>, 姚巍<sup>1</sup> 基于机器学习的线上线下联合服务模式下医生排班算法 /oa/darticle.aspx?type=view&id=202404032 线上线下联合的医疗服务模式已经成为我国大型医院普遍采用的新型医疗服务模式,为了优化大型医院在此类模式下的医生资源配置,本文研究考虑切换成本的医生排班问题。针对此问题,建立考虑服务水平限制的医生排班马尔可夫决策过程模型,并设计近似动态规划算法对马尔可夫决策过程高效求解。进一步,考虑患者高度时变到达以及医疗服务时长等多维不确定性,基于合作医院的实际数据,构建数据驱动的循环神经网络模型,提出基于数据驱动的线上线下患者排队系统的性能评估方法。数值实验显示,所提出的方法能够降低医生总工作时长,并有效控制患者等待时间,保证系统的高效运行。本文研究结果可为大型医院合理配置线上线下医疗资源提供理论依据和决策支持。 2025年08月05 00:00 2025年4期 800 812 4182875 张越<sup>1</sup>, 王子翔<sup>2</sup>, 周博<sup>1</sup>, 刘冉<sup>1</sup>, 杨之涛<sup>3</sup> 基于高效特征提取和大感受野的无人机航拍图像目标检测 /oa/darticle.aspx?type=view&id=202405001 针对无人机航拍图像中存在小目标、目标遮挡、背景复杂的问题,提出一种基于高效特征提取和大感受野的目标检测网络(efficient feature and large receptive field network, EFLF-Net)。通过优化检测层架构降低小目标漏检率;在主干网络融合新的构建模块以提升特征提取效率;引入内容感知特征重组模块和大型选择性核网络,增强颈部网络对遮挡目标的上下文感知能力;采用Wise-IoU损失函数优化边界框回归稳定性。在VisDrone2019数据集上的实验结果表明,EFLF-Net较基准模型在平均精度上提高了5.2%。与已有代表性的目标检测算法相比,该方法对存在小目标、目标相互遮挡和复杂背景的无人机航拍图像有更好的检测效果。 2025年08月05 00:00 2025年4期 813 821 6017552 沈朕宇<sup>1</sup>, 朱凤华<sup>2</sup>, 王知学<sup>1</sup>, 沈震<sup>2</sup>, 熊刚<sup>2</sup> 融合低秩预分离与随机抖动机制的非凸型TRPCA算法 /oa/darticle.aspx?type=view&id=202406003 为了解决张量鲁棒主成分分析(tensor robust principal component analysis, TRPCA)还原低秩结构时同等收缩奇异值造成的信息提取偏差问题,本文考虑区别对待奇异值,使用非凸加权张量Schatten-<i>p</i>范数(0&lt;<i>p</i>&lt;1)分析张量数据,可减少对奇异值的惩罚。为解决数据受损严重难以恢复的问题,提出低秩预分离的方法实现近似低秩部分和近似稀疏部分的预先分离;为增强高阶张量之间相关性同时降低数据对特定噪声的敏感性,提出随机抖动正则器的机制对预分离后成分分别选取随机区域优化,利用噪声信息的随机性来正则化算法得以约束模型的复杂度;最后使用不同类型的图像数据集,包括彩色图像、核磁共振图像、高光谱及多光谱图像和灰度视频,进行高维数据恢复实验。结果表明该方法在图像恢复性能上明显优于其他TRPCA方法,并且在数据受损严重时同样具有优势,有效提取主成分信息的同时减小数据对特定噪声的依赖,具有较强的鲁棒性和适应性,可为TRPCA方法在图像恢复领域中提供参考。 2025年08月05 00:00 2025年4期 822 837 12798857 潘昱妍, 张德, 李壮举 决策变量分组优化的多目标萤火虫算法 /oa/darticle.aspx?type=view&id=202406005 多目标萤火虫算法采用整体维度更新策略,常因某几维变量上优化效果不佳,导致算法收敛速度慢和寻优精度低。针对上述问题,本文提出基于决策变量分组优化的多目标萤火虫算法(multi-objective firefly algorithm with group optimization of decision variables, MOFA-GD)。引入决策变量分组机制,根据各变量对算法性能的不同影响,将整体决策变量划分成收敛性变量组和多样性变量组;设计决策变量分组优化模型,利用学习行为优化收敛性变量组,加快种群收敛速度,非均匀变异算子优化多样性变量组,避免种群过早收敛,逐渐减小的变异幅度引导种群局部开发,提升算法寻优精度;采用档案截断策略维护外部档案,精准删除拥挤个体,从而保持外部档案的多样性。实验结果表明:MOFA-GD表现出优秀的收敛速度和寻优精度,获得了均匀分布的Pareto解集。本文所提算法为求解多目标优化问题提供了一种高效且可靠的解决方案。 2025年08月05 00:00 2025年4期 838 857 5973465 邢文来<sup>1,2,3</sup>, 吴润秀<sup>1,2,3</sup>, 肖人彬<sup>4</sup>, 钟劲文<sup>1,2,3</sup>, 赵嘉<sup>1,2,3</sup> 渐进式分层特征提取的综合能源多任务负荷预测 /oa/darticle.aspx?type=view&id=202406008 针对综合能源系统中电、冷、热负荷存在复杂耦合关系,传统多任务学习模型难以学习到有效的多元负荷耦合特征可能导致预测精度降低的问题,本文充分考虑多元负荷复杂耦合关系,提出一种渐进式分层特征提取的综合能源多任务负荷预测模型。将全年数据按季节划分,分析各季节下电、冷、热负荷间耦合强度;采用变分模态分解将历史负荷序列分解为多个不同频率的分量,可以更好挖掘多元负荷的深层时序特征;渐进式分层提取多元负荷的耦合特征,并动态分配耦合特征对预测结果的影响权重,避免耦合特征无效时模型预测精度下降。实验结果证明,在不同的多元负荷耦合强度下,渐进式分层特征提取的多任务负荷预测在精度上有更好表现。研究结论可用于指导综合能源多元负荷预测过程。 2025年08月05 00:00 2025年4期 858 870 4948694 王德文<sup>1,2</sup>, 安涵<sup>1</sup>, 张林飞<sup>1</sup>, 赵文清<sup>1,3</sup> 面向边缘设备的目标检测模型研究 /oa/darticle.aspx?type=view&id=202406015 现有目标检测模型在边缘设备上部署时,其检测性能和推理速度的平衡有较大提升空间。针对此问题,本文基于YOLO (you can only look once) v8提出一种可部署到多类边缘设备上的目标检测模型。在模型的骨干网络部分,设计了EC2f (extended coarse-to-fine) 结构,在降低参数量和计算复杂度的同时降低数据读写量;在颈部网络部分,将颈部网络替换为YOLOv6-3.0版本的颈部网络,加速了模型推理,并将推理精度维持在较好水平;预测头网络部分设计了多尺度卷积检测头,进一步降低了模型的计算复杂度和参数度。设计了两个版本 (n/s尺度)以适应不同的边缘设备。在X光数据集的实验表明,模型在推理精度上比同尺度的基准模型分别提升0.5/1.7百分点,推理速度上分别提升11.6%/11.2%。在其他数据集上的泛化性能测试表明,模型的推理速度提升了10%以上,精度降低控制在1.3%以内。实验证明,模型在推理精度和速度之间实现了良好的平衡。 2025年08月05 00:00 2025年4期 871 881 5194112 徐伟峰<sup>1,2</sup>, 雷耀<sup>1</sup>, 王洪涛<sup>1,2</sup>, 张旭<sup>1</sup> 多级决策优化关系网络的小样本学习方法 /oa/darticle.aspx?type=view&id=202406016 针对小样本学习中数据稀缺性的问题以及传统二支决策方法仅提供接受或拒绝两种选择的局限性,本研究提出一种多级决策优化的小样本学习方法。提出多粒度特征提取模块对样本进行处理,构建具有不同粒度的特征层来获取不同感受野的语义信息,从而实现精确决策;提出多分支自适应特征细化模块来提升局部与全局的关键区域特征表示;通过关系网络计算获取各个尺度参数,构建恰当的相似度度量矩阵,并将其输入到提出的多级决策优化模块中,使得模型能够根据不同粒度层的特征自适应地调整决策中的不确定区域。通过在MiniImageNet和TieredImageNet两个公开数据集上进行实验验证,分类准确率均有一定提升,实验结果验证了本方法的有效性。 2025年08月05 00:00 2025年4期 882 893 4281695 缪宛谕, 苟光磊, 钟声, 白瑞峰, 文浪 基于耳周肌电信号的默念口令识别方法 /oa/darticle.aspx?type=view&id=202406017 智能设备的普及促使可穿戴人机交互技术需求日益增加。为提高用户接受度,人机交互技术对交互易用性与隐蔽性要求较高。本文提出基于耳周肌电信号的默念口令识别方法。该方法易于与集成生理电采集的耳机设备结合,实现无声操控智能设备,减少社交尴尬。具体地,本文首先确定并构建口令经验原则,筛选最优口令集。其次,根据单通道信噪比和分类准确率选择最优耳周传感器位置。再次,提出基于CNN-Transformer结构的识别模型构建耳周肌电信号与默念口令的时空映射。最后,大量实验评估方法可行性和稳定性。结果表明,本文方法平均准确率91.18%,优于相关任务的先进模型,且在命令变形和头部运动下表现稳定。本文方法奠定了默念口令识别商业产品的技术基础。 2025年08月05 00:00 2025年4期 894 904 5546151 魏柏淳<sup>1</sup>, 姜峰<sup>2</sup>, 张松涛<sup>1</sup>, 张琦<sup>1</sup>, 段锦楠<sup>1</sup>, 王修来<sup>3</sup> 数字孪生中混合知识蒸馏辅助的异构联邦类增量学习 /oa/darticle.aspx?type=view&id=202406027 在数字孪生背景下,联邦学习面临数据非独立同分布和类别动态变化的挑战,即空间和时间范围内的数据异构问题。为解决这一问题,本文构建了一个数字孪生背景下的联邦类增量学习整体框架,并提出了一种混合知识蒸馏辅助的联邦类增量学习方法。具体来说,与传统联邦学习本地更新方式不同,本文方法通过自适应语义蒸馏损失和自适应注意力蒸馏损失集成的混合知识蒸馏方法提取旧全局模型中输出层的软标签语义知识和中间层的高维特征知识,使客户端模型在拟合新数据的同时有效减少对旧数据的遗忘,提升联邦类增量模型的性能。在相同的数据异构情况下,与对比模型相比,本文方法在CIFAR100数据集上精度提升1.85%~2.56%,在医学CT图像数据集OrganAMNIST、OrganCMNIST、OrganSMNIST上也取得了最优或次优的性能。 2025年08月05 00:00 2025年4期 905 915 4602732 张铭泉<sup>1,2</sup>, 贾圆圆<sup>1</sup>, 张荣华<sup>1,3</sup> 融合金字塔和多尺度注意力的多曝光图像融合优化算法 /oa/darticle.aspx?type=view&id=202406032 为解决复杂光照条件下真实场景中导致的图像噪声、模糊和细节丢失问题,本文提出一种多曝光图像融合技术DPEPA-MEF(deep pyramid exposure pyramid attention-multi-exposure fusion)。该方法通过有效结合不同曝光水平的图像,解决高对比度、低光照以及色彩和亮度平衡等问题。该方法由3个模块组成,对DPE(deep pyramid exposure)进行改进。第1个模块专注于内容细节提取,第2个模块负责色彩映射和校正,第3个模块利用多尺度特征金字塔进行图像恢复。实验结果表明,在不同的光照条件和动态场景下,DPEPA-MEF能够更有效地融合多张曝光图像,生成的图像在细节保留、色彩还原和对比度等方面表现出色。通过定量评估指标和主观视觉评估,DPEPA-MEF均显示出显著的优势,证明了该方法在实际应用中的巨大潜力和优越性。 2025年08月05 00:00 2025年4期 916 927 6856743 王卫苹, 刁亚鹏 基于深度学习技术的古彝文字图像搜集与整理方法 /oa/darticle.aspx?type=view&id=202406036 古彝文字是中华文化的重要载体之一,但人工搜集、整理大量古彝文字耗时耗力,而且能辨识古彝文字的人已非常稀缺且越来越少,这使得整理工作变得更为困难。对此,本文提出一种基于深度学习技术的古彝文字图像搜集与整理的新思路。在古彝文字图像搜集方面,通过目标检测模型得到每个古彝文字在彝文古籍图像中的位置,据此在彝文古籍图像中截取出古彝文字图像,实现古彝文字搜集。在古彝文图像整理方面,首先根据规范彝文来源于古彝文的事实,采用规范彝文字体文件自动生成彝文字图像用于构建数据集,并将数据集应用于训练古彝文字图像特征算法,这有效回避了目前因古彝文字数量庞大、异体字众多、整理尚未完成,而尚无古彝文字图像数据集的问题;然后,通过匹配所搜集的古彝文字图像的特征与现已收录的古彝文字图像的特征的相似性,判断所搜集的古彝文字图像是否已被收录,从而整理出未收录的古彝文字图像。实验在多种典型的特征提取算法和相似性计算方式下进行,实验结果验证了方法的有效性。 2025年08月05 00:00 2025年4期 928 935 6153859 熊铁妞<sup>1,2</sup>, 邱吉芳<sup>3</sup>, 胡建<sup>1,2</sup> 基于双分支注意力机制的指纹纹型分类 /oa/darticle.aspx?type=view&id=202407005 针对现有指纹分类算法中存在的低质量指纹难以识别、特征信息提取不充分以及提取过程中信息丢失的问题,提出一种基于双分支注意力机制的指纹纹型分类算法。算法通过提取方向场和进行Gabor滤波的双分支网络进行特征融合,充分利用指纹图像的纹线特征和全局特征;提出的组合激活函数和综合注意力机制模块充分提取卷积分支上的空间特征和通道特征信息,减少提取过程中的信息丢失;设计分支特征融合模块对双分支输出的特征图进行加权,充分融合特征信息;最后引入改进的交叉熵损失缓解样本分布不平衡的问题。实验结果表明,所提算法在自建纹型数据集的4类指纹分类中取得了99.08%的准确率,在准确率、<i>F</i><sub>1</sub>分数和曲线下面积指标方面均优于其他网络模型,验证了本文算法在纹型分类任务上的有效性和优越性。 2025年08月05 00:00 2025年4期 936 945 6483199 赵东越<sup>1</sup>, 石磊<sup>2</sup>, 丁锰<sup>1,3</sup> 双线性特征融合和门控循环单元质量聚合的图像质量评价 /oa/darticle.aspx?type=view&id=202407028 目前图像质量评价方法存在特征融合方式简单、质量信息提取和利用不充分以及忽略图像不同区域间相关性的问题,本文提出双线性特征融合和门控循环单元(gate recurrent unit, GRU)质量聚合的图像质量评价方法。提取图像的全局和局部特征,并对局部特征进行基于可变形卷积的筛选操作,在语义和上下文信息的引导作用下,滤除与失真无关的信息;构建双线性特征融合模块,加强全局-局部特征的信息交互,捕捉图像质量在空间关系和上下文信息上的变化;构建基于GRU的质量聚合模块,将逐图像块质量预测和全局依赖性建模相结合,动态调整各图像块的权重比例,最后通过聚合各图像块的质量信息生成整张图像的质量分数。在不同失真类型、不同场景的CSIQ、TID2013和PIPAL数据集上,本文方法的皮尔逊线性相关系数和斯皮尔曼等级相关系数均为最优值,尤其在PIPAL数据集中,相比于次优方法,皮尔逊线性相关系数提高了3.9%,斯皮尔曼等级相关系数提高了3.1%。 2025年08月05 00:00 2025年4期 946 957 5441998 王亚茹, 杨春旺, 屈卓, 赵顺, 张诗吟, 翟永杰 基于强化学习的超高层建筑非法入侵情景推演方法 /oa/darticle.aspx?type=view&id=202408002 为计算超高层建筑潜在非法入侵者的“最优”入侵路径,本文提出了一种基于强化学习的情景推演方法。该方法将建筑公共走廊抽象为拓扑结构,利用贝叶斯网络计算入侵者通过每个拓扑节点的概率,结合强化学习算法获得外部人员的最优入侵路径,为超高层建筑非法入侵的高效防范提供精准依据。为验证方法的有效性,以北京市CBD地区某超高层建筑为例,将入侵终点设置为顶层,设计了3种不同的入侵情景。情景推演结果表明:在初始状态下(未进行任何优化措施),SARSA模型的训练性能最佳。优化安防系统后发现,在建筑内的层间节点增加安防系统投入最有效。该优化情景下,安防系统投入与风险值的非线性拟合结果显示,随着安防系统投入的增加,入侵风险显著降低。 2025年08月05 00:00 2025年4期 958 968 5661072 胡今鸣<sup>1</sup>, 胡啸峰<sup>1,2,3</sup>, 石磊<sup>4</sup>, 石拓<sup>5</sup>, 滕腾<sup>1</sup> 基于SDAE-DCPInformer的电动汽车电池SOC和SOH估算方法 /oa/darticle.aspx?type=view&id=202408010 针对现有电动汽车电池状态估计方法存在运算效率低和估算准确率低的问题,提出一种模型以估算电动汽车电池荷电状态 (state of charge, SOC) 和健康状态 (state of health, SOH)。采用堆叠降噪自编码器 (stacked denosing auto encoder,SDAE) 清洗电压、电流和温度数据中的异常数据和空缺数据,减小对估算精度的影响。引入动态通道剪枝 (dynamical channel pruning,DCP) 技术对Informer模型进行稀疏化处理,提高剪枝后模型的性能和稳定性。将清洗过的数据输入DCPInformer模型实现SOC和SOH的精确估计。实验结果表明,所提出的SDAE-DCPInformer模型估计SOC的平均绝对误差和均方根误差分别达到0.25%和0.38%,估计SOH的平均绝对误差和均方根误差分别达到了0.51%和0.64%。与传统Transformer等模型相比,所提模型预测SOC和SOH的速度更快,估算准确度有效提升,拥有的更好稳定性和泛化性。 2025年08月05 00:00 2025年4期 969 983 5420562 彭自然<sup>1,2</sup>, 王顺豪<sup>1,2</sup>, 肖伸平<sup>1,2</sup> 抑制心血管图像序列中运动伪影的无监督深度学习方法 /oa/darticle.aspx?type=view&id=202408014 血管内超声(intravascular ultrasound, IVUS)和光学相干断层成像(optical coherence tomography, OCT)是诊断冠状动脉粥样硬化性病变的重要手段,但心脏运动和血流搏动会产生运动伪影,影响图像质量。为解决这一问题,本文提出一种无监督深度学习方法,用于抑制IVUS/OCT图像序列中的运动伪影。设计一个深度神经网络,包含特征提取、上采样、运动估计和运动校正模块,实现从连续回撤导管采集的图像序列到去伪影图像序列的映射。利用临床IVUS/OCT图像进行无监督训练,实验结果表明,该方法能显著提高纵向视图中管壁边缘的平滑度,标准差和帧间差异度指标得到显著改善。与其他方法相比,本文方法可使平均帧间差异度降低约23%,标准差降低约24%。该方法有效解决了IVUS/OCT图像序列因运动伪影造成的质量下降问题,优化了图像视觉效果。 2025年08月05 00:00 2025年4期 984 998 10163904 王茹<sup>1</sup>, 孙正<sup>1,2</sup>, 姚越<sup>1</sup> 基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型 /oa/darticle.aspx?type=view&id=202409012 在多模态情感分析任务中,现有方法由于忽视了图像与文本之间的情感关联性,导致融合特征存在大量冗余特征。为此,提出了一种基于卷积交叉注意力与跨模态动态门控的多模态情感分析模型(convolutional cross-attention and cross-modal dynamic gating, CCA-CDG)。CCA-CDG通过引入卷积交叉注意力模块(convolutional cross-attention module, CCAM) 来捕捉图像与文本间的一致性表达,获取图文之间的对齐特征;同时利用跨模态动态门控模块(cross-modal dynamic gating module, CDGM),根据图文之间的情感关联性动态调节情感特征的融合。此外,考虑到图文上下文信息对于理解情感的重要性,还设计了一个全局特征联合模块,将图文交互特征与全局特征权重融合,实现更可靠的情感预测。在MVSA-Single和MVSA-Multi数据集上进行实验验证,所提出的CCA-CDG能够有效改善多模态情感分析的效果。 2025年08月05 00:00 2025年4期 999 1009 4897625 仲兆满<sup>1,2</sup>, 樊继冬<sup>1</sup>, 张渝<sup>1</sup>, 王晨<sup>1</sup>, 吕慧慧<sup>1</sup>, 张丽玲<sup>1</sup> 视觉感知人景互影响的人体动作预测方法 /oa/darticle.aspx?type=view&id=202411016 场景信息驱动人类调整动作轨迹,对人体动作预测影响较大。当前研究仅捕获场景信息更新动作特征,忽略了场景与动作的互影响关系。为此,提出一种视觉感知人景互影响的人体动作预测方法。提取动作特征和场景特征,然后循环执行场景信息捕获单元和场景适应度增强单元。前者捕获影响动作的场景信息,后者利用该信息更新动作特征以增强场景适应性。完成循环后,得到场景适应型动作特征。基于该特征执行噪声逆扩散完成动作预测。在3个数据集上进行实验,结果表明本文方法的预测误差低于当前主流方法,验证了其有效性。本文方法将为真实场景中的人体动作预测提供更加可靠的解决方案。 2025年08月05 00:00 2025年4期 1010 1023 5668428 李沁<sup>1,2</sup>, 陈飞扬<sup>1</sup>, 彭晗<sup>1</sup>, 王勇<sup>3</sup>, 刘利枚<sup>1</sup>, 张伟<sup>4</sup> 基于改进CycleGAN网络的面部腧穴定位算法 /oa/darticle.aspx?type=view&id=202410009 现有腧穴自动定位方法存在定位误差大、算法泛化能力弱、操作复杂等缺点,不能满足大规模针灸临床应用的需求。针对以上问题,提出一种适用于面部腧穴定位的改进循环一致生成对抗网络。采用双循环对抗训练机制,通过对称生成对抗网络的交替迭代实现网络性能优化;针对面部图像的特点,设计内嵌腧穴信息感知块的对称编解码生成器和能够在不同感受野下处理特征的多尺度分块判别器;采用多个损失函数对腧穴定位网络进行约束。实验结果表明,所提算法可实现与人工定位视觉效果相似的结果,为面部腧穴智能定位技术的研究提供全新的视野。 2025年08月05 00:00 2025年4期 1024 1032 7302066 杨婕<sup>1,2</sup>, 高阳<sup>3</sup>, 段郑玉<sup>1</sup>, 姬冰霞<sup>1</sup>, 张雄<sup>3</sup>, 上官宏<sup>3</sup> 引入因果发现学习的跨领域知识泛化方法 /oa/darticle.aspx?type=view&id=202501005 领域泛化是将多个已知领域的知识泛化到未知目标领域的技术。然而,现有领域泛化模型在提取图像特征时,容易受高维噪声的影响,导致提取的图像特征与标签之间无法建立稳定的因果关系。因此,受跨域不变因果机制的启发,本文通过引入因果发现学习技术,提高跨域知识泛化的准确性。提取图像的低维潜在特征并对其进行变分推理,保留图像基本信息的同时实现特征变量相互独立;通过重构潜在特征变量与类别标签之间的因果有向无环图(directed acyclic graphs, DAG),发现与类别标签有稳定因果结构的潜在特征变量;引入反事实对比正则化模块,利用数据生成过程中的反事实方差和不变性进行因果推断,生成因果不变表示。为验证本文方法,在DomainBed框架下的5个数据集和SWAD框架下的4个数据集上进行了测试。实验表明,与现有的领域泛化方法相比,本文方法在性能和适应性方面有较大提高。 2025年08月05 00:00 2025年4期 1033 1045 4849730 李珊珊<sup>1,2</sup>, 赵清杰<sup>2</sup>, 朱文龙<sup>1</sup>, 阮锦佳<sup>3</sup>, 于铁军<sup>1</sup>, 马少辉<sup>1</sup>, 孙保胜<sup>1</sup> 读懂爱因斯坦——“四要素说”是统揽人和机器认知的第一性原理 /oa/darticle.aspx?type=view&id=202506028 古希腊哲学家亚里士多德提出,可以用第一性原理回归到问题的本质来理解事物的规律。爱因斯坦在提出广义相对论之后,于20世纪20年代开始试图寻找一种更为宏大的统一理论来解释物质的相互作用,他试图用场论来作统一解释,但未能取得成功。<b>本文指出,这种尝试需要区分物质世界的物理空间和人类精神世界里的认知空间,区分物质硬构体和思维软构体。</b>宇宙是物质的,宇宙里不存在虚空,也不存在时间。虚空和时间是人类认知的精神产物,并非客观存在。人类对客观存在的大自然的认知是无尽的,不可能不带有渐进性、主观性和局限性,做不到绝对客观,尽管我们希望尽可能地客观。物质、能量、结构和时间构成人类认知和机器认知的最基础要素,“四要素说”是统揽人类认知和机器认知的第一性原理,通过“四要素说”可以更深入地理解事物之间的关联、生命的复杂过程,解释智能的产生,实现智能的度量,尤其是理解人的认知和机器认知的同源性和同一性。人工智能就是把生命体的认知从人的智慧中剥离出来,用时序维持负熵,用物理机器进行实际操作,通过机器的物质、结构变化和运行时隙精度的提高,用较低能耗实现甚至超过人的智能。 2025年08月05 00:00 2025年4期 1046 1052 4710637 李德毅<sup>1</sup>, 刘玉超<sup>2</sup>, 鲍泓<sup>3</sup>, 蒋升<sup>4</sup>