[1]赵荣峰,卢宝莉,唐小江,等.面向智能座舱的多源混合模态数据集及层次化融合分类方法[J].智能系统学报,2026,21(1):83-94.[doi:10.11992/tis.202507024]
ZHAO Rongfeng,LU Baoli,TANG Xiaojiang,et al.Multi-source hybrid-modality dataset and hierarchical fusion classification method for intelligent cockpits[J].CAAI Transactions on Intelligent Systems,2026,21(1):83-94.[doi:10.11992/tis.202507024]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
21
期数:
2026年第1期
页码:
83-94
栏目:
学术论文—机器学习
出版日期:
2026-03-05
- Title:
-
Multi-source hybrid-modality dataset and hierarchical fusion classification method for intelligent cockpits
- 作者:
-
赵荣峰1,2, 卢宝莉1, 唐小江1, 胡敏4, 李卫军1,3, 宁欣1,2
-
1. 中国科学院半导体研究所 人工智能与高速电路实验室, 北京 100083;
2. 中国科学院大学 材料科学与光电技术学院, 北京 100049;
3. 中国科学院大学 集成电路学院, 北京 100049;
4. 北京中科睿途科技有限公司, 北京 100096
- Author(s):
-
ZHAO Rongfeng1,2, LU Baoli1, TANG Xiaojiang1, HU Min4, LI Weijun1,3, NING Xin1,2
-
1. Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China;
2. College of Materials Science and Opto-Electronic Technology, University of Chinese Academy of Sciences, Beijing 100049, China;
3. School of Integrated Circuits, University of Chinese Academy of Sciences, Beijing 100049, China;
4. Beijing Ratu Technology Co., Ltd, Beijing 100096, China
-
- 关键词:
-
智能座舱; 数据集; 多模态融合; 视觉多模态; 行为分类; 危险行为; 行为识别; 多源数据
- Keywords:
-
intelligent cockpit; dataset; multimodal fusion; visual multimodality; behavior classification; dangerous behavior; behavior recognition; multi-source data
- 分类号:
-
TP391.4
- DOI:
-
10.11992/tis.202507024
- 摘要:
-
针对驾驶领域智能座舱数据开源少、数据模态维度单一、标注力度不足和场景多样性受限的问题,构建了面向智能座舱的多源混合模态数据集,包含彩色数据、深度数据和红外数据的视觉模态数据与包含车辆信息和多维度驾驶场景的结构化文本模态数据,使用双层行为联合标注规则完成了数据集十类标签的标注。同时,基于该数据集提出了层次化混合模态融合框架,通过跨模态信息交换机制与语义引导融合机制提升了模型对数据特征的提取能力,完成了数据集中彩色数据与其余各数据的不同组合对行为分类任务性能影响的实验。实验表明:多源混合模态数据集能够有效提升对智能座舱的环境理解。在该数据集上,逐渐增加数据集中与彩色数据的不同数据源能够提升所提出方法对数据集分类的能力,当使用所有数据时性能达到最佳,相较于只用彩色数据的准确率提升了15.75%,验证了数据集内多源混合模态数据的有效性。
- Abstract:
-
The scarcity of open-source data for intelligent cockpits in the driving domain is characterized by limited modality dimensions, insufficient annotations, and restricted scene diversity. To address these challenges, a multi-source hybrid-modality dataset has been constructed. This dataset incorporates RGB, depth, and infrared visual data, along with structured textual data detailing vehicle information and driving scenarios. A dual-layer annotation scheme is applied to capture ten behavior categories. Leveraging this dataset, a hierarchical multi-modal fusion framework is proposed to enhance feature extraction via cross-modal information exchange and semantically guided fusion mechanisms. Experiments on video classification tasks reveal significant improvements in environmental understanding when combining RGB data with additional modalities. Using the full range of modalities leads to a 15.75% increase in accuracy compared to using only RGB data. These results validate the effectiveness of the multi-source hybrid-modality dataset in advancing intelligent cockpit systems.
备注/Memo
收稿日期:2025-7-16。
基金项目:北京市自然科学基金-小米创新联合基金(L233036).
作者简介:赵荣峰,硕士研究生,主要研究方向为智能座舱多模态、多模态大模型和视频理解。获得“优秀义务兵”及“嘉奖”,“青创北京”2022年“挑战杯”首都大学生创业计划竞赛“青绘团史”专项赛省级金奖,2022年国家励志奖学金,2023年北京市“优秀毕业生”称号。 E-mail:zhaorongfeng23@semi.ac.cn。;卢宝莉,助理研究员,博士,中国计算机学会高级会员、中国人工智能学会青年工作委员会委员,曾担任IEEE HPBD&IS 2021和IEEE HDIS 2022国际会议组织主席。主要研究方向为计算机视觉、智能系统、人工智能辅助诊疗。作为子课题负责人及项目骨干参与了国家重点研发计划、国家自然科学基金、北京市自然科学基金等项目10余项,获得发明专利授权10项,在2025 长三角(芜湖)算力算法创新应用大赛中荣获算法赛道冠军,发表学术论文20余篇。E-mail:lubaoli@semi.ac.cn。;宁欣,研究员,博士生导师。中国计算机学会、中国人工智能学会、中国图象图形学学会高级会员,入选2022—2024年全球2%顶尖科学家榜单,中国科学院青促会会员。主持国家重点研发计划、国家自然科学基金青年基金/面上基金、北京市自然科学基金等项目5项。获国家发明专利授权30余项,获中国电子学会科技进步二等奖,获中国科学院半导体研究所首届青年创芯奖一等奖,入选中国科学院半导体研究所青年研究员计划。发表学术论文100余篇,撰写英文专著1部。E-mail:ningxin@semi.ac.cn。
通讯作者:卢宝莉. E-mail:lubaoli@semi.ac.cn
更新日期/Last Update:
2026-01-05