[1]刘卓锟,刘华平,黄文美,等.视听觉跨模态表面材质检索[J].智能系统学报,2019,14(3):423-429.[doi:10.11992/tis.201804030]
LIU Zhuokun,LIU Huaping,HUANG Wenmei,et al.Audiovisual cross-modal retrieval for surface material[J].CAAI Transactions on Intelligent Systems,2019,14(3):423-429.[doi:10.11992/tis.201804030]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
14
期数:
2019年第3期
页码:
423-429
栏目:
学术论文—智能系统
出版日期:
2019-05-05
- Title:
-
Audiovisual cross-modal retrieval for surface material
- 作者:
-
刘卓锟1, 刘华平2, 黄文美1, 王博文1, 孙富春2
-
1. 河北工业大学 省部共建电工装备可靠性与智能化国家重点实验室, 天津 300130;
2. 清华大学 智能技术与系统国家重点实验室, 北京 100084
- Author(s):
-
LIU Zhuokun1, LIU Huaping2, HUANG Wenmei1, WANG Bowen1, SUN Fuchun2
-
1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China;
2. State Key Lab of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China
-
- 关键词:
-
跨模态检索; 特征提取; 典型相关分析; 子空间映射; 材质分析; 卷积神经网络; 梅尔频率倒谱系数; 欧式距离
- Keywords:
-
cross-modal retrieval; feature extraction; canonical correlation analysis; subspace mapping; material analysis; convolutional neural network; Mel-frequency cepstral coefficients; Euclidean distance
- 分类号:
-
TP391
- DOI:
-
10.11992/tis.201804030
- 摘要:
-
针对文本图像特征有时无法满足对物体材质进行真实准确分析的情况,本文在视听领域使用跨模态检索方法进行表面材质检索。首先提取声音的梅尔频率倒谱系数(MFCC)特征,使用卷积神经网络(CNN)提取图像特征,然后利用典型相关分析将两种特征映射到子空间并用欧氏距离进行检索,并在慕尼黑工业大学触觉纹理数据集上进行实验验证,实现了使用声音检索图像的跨模态检索过程。实验结果表明,所提出的方法在材质检索方面有较好应用效果。
- Abstract:
-
Text and image features sometimes do not allow for true and accurate analysis of the material. To solve this problem, a cross-modal method for surface material retrieval in an audiovisual field is proposed. First, the sound feature is extracted using mel frequency cepstral coefficients (MFCCs), and the image feature is extracted using convolutional neural network (CNN). Then, these two features are mapped to the subspace using canonical correlation analysis and are further retrieved via Euclidean distance. Experimental validation performed using the tactile texture dataset of the Technical University of Munich showed that the proposed method has a good application effect on material retrieval.
备注/Memo
收稿日期:2018-04-18。
基金项目:国家自然科学基金重点项目(U1613212);河北省自然科学基金项目(E2017202035).
作者简介:刘卓锟,男,1994年生,硕士研究生,主要研究方向为新型磁性材料与器件、触觉感知与模式识别;刘华平,男,1976年生,副教授,博士生导师,IEEE Senior Member、中国人工智能学会理事,中国人工智能学会认知系统与信息处理专业委员会秘书长,主要研究方向为机器人感知、学习与控制、多模态信息融合。主持国家自然科学基金5项。发表学术论文200余篇,被SCI检索100余篇;黄文美,女,1969年生,教授,主要研究方向为磁性材料与器件、电机及其控制技术。完成国家自然科学基金项目4项、河北省自然科学基金项目2项。发表学术论文40余篇,被SCI、EI、ISTP检索20余篇。
通讯作者:刘华平.E-mail:hpliu@tsinghua.edu.cn
更新日期/Last Update:
1900-01-01