[1]郭茂祖,周遨宇,段然.融合多实例学习与注意力机制的异构体功能预测方法[J].智能系统学报,2025,20(6):1508-1519.[doi:10.11992/tis.202410005]
GUO Maozu,ZHOU Aoyu,DUAN Ran.Isoform function prediction based on attention mechanism and multiple instance learning[J].CAAI Transactions on Intelligent Systems,2025,20(6):1508-1519.[doi:10.11992/tis.202410005]
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
20
期数:
2025年第6期
页码:
1508-1519
栏目:
吴文俊人工智能科学技术奖论坛
出版日期:
2025-11-05
- Title:
-
Isoform function prediction based on attention mechanism and multiple instance learning
- 作者:
-
郭茂祖1,2, 周遨宇1,2, 段然1,2
-
1. 北京建筑大学 智能科学与技术学院, 北京 102616;
2. 北京建筑大学 城市建筑超级智能技术北京市重点实验室, 北京 102616
- Author(s):
-
GUO Maozu1,2, ZHOU Aoyu1,2, DUAN Ran1,2
-
1. School of Intelligence Science and Technology, Beijing University of Civil Engineering and Architecture, Beijing 102616, China;
2. Beijing Key Laboratory of Super Intelligent Technology for Urban Architecture, Beijing University of Civil Engineering
-
- 关键词:
-
基因功能; 高分辨率注释; 异构体功能; 图卷积神经网络; 基因本体嵌入; 异构体互作网络; 融合网络; 注意力权重; 损失函数
- Keywords:
-
gene functions; high-resolution annotation; isoform functions; graph convolutional network; gene ontology embedding; isoform interaction network; fusion network; attention-weighted; loss function
- 分类号:
-
TP181
- DOI:
-
10.11992/tis.202410005
- 摘要:
-
基因功能的高分辨率注释是功能基因组学的核心任务。单个基因可变剪接产生的异构体(isoform)翻译出多种蛋白质变体,为生物体提供了功能多样性。为实现异构体功能的高分辨率注释,本文提出了一种方法LossIsoFun。引入基因本体(gene ontology,GO),并利用图卷积神经网络(graph convolutional network,GCN)保留其层次结构和语义信息,通过GO网络嵌入策略获得压缩的基因GO注释。融合异构体互作网络、共表达网络和序列相似性网络,构建异构体功能网络,并将异构体序列数据与功能网络输入GCN,获取异构体功能的低维表示。通过基因与异构体的关联关系,得到基因功能的低维表示。提出一种基于注意力权重的损失函数,通过最小化压缩的基因GO注释与基因功能低维表示之间的差异来训练模型。通过解压缩异构体的低维表示,获得异构体的高分辨率注释。在人类基准数据集上的对比实验验证了LossIsoFun的有效性。
- Abstract:
-
High-resolution annotation of gene functions is essential in functional genomics. Multiple isoforms are generated from a single gene via alternative splicing, thereby producing protein variants that contribute to functional diversity. This paper introduces LossIsoFun, a framework for high-resolution isoform function annotation. First, gene ontology (GO) and a graph convolutional network (GCN) are used to preserve hierarchical and semantic structures, producing compressed GO annotations. Then, isoform interaction, coexpression, and sequence similarity networks are integrated to construct an isoform functional network. The isoform sequence data and functional network are fed into a GCN to generate low-dimensional isoform representations. By leveraging gene–isoform relationships, gene function representations are derived. A novel loss function minimizes differences between compressed GO annotations and gene function representations. Finally, isoform functions are annotated by decompressing these representations. Validation on human benchmark datasets demonstrates that LossIsoFun effectively yields isoform function annotation.
备注/Memo
收稿日期:2024-10-9。
基金项目:国家自然科学基金重点项目(62031003);国家自然科学基金青年基金项目(62301021).
作者简介:郭茂祖,教授,博士生导师,北京建筑大学智能科学与技术学院院长,中国人工智能学会机器学习专委会常委、中国建筑学会计算性设计学术委员会常委,主要研究方向为机器学习、计算生物学。获吴文俊人工智能自然科学奖二等奖。发表学术论文100余篇。 E-mail:guomaozu@bucea.edu.cn。;周遨宇,硕士研究生,主要研究方向为深度学习和生物信息学。E-mail:18336331205@163.com。;段然,讲师,主要研究方向为生物信息学、网络科学、数据挖掘、机器学习。主持国家自然科学基金青年项目1项。发表学术论文8篇。E-mail:duanran@bucea.edu.cn。
通讯作者:段然. E-mail:duanran@bucea.edu.cn
更新日期/Last Update:
1900-01-01