[1]杨 潇,马 军,杨同峰,等.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176.
YANG Xiao,MA Jun,YANG Tong-feng,et al.Automatic multidocument summarization based onthe latent Dirichlet topic allocation model[J].CAAI Transactions on Intelligent Systems,2010,5(2):169-176.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
5
期数:
2010年第2期
页码:
169-176
栏目:
学术论文—自然语言处理与理解
出版日期:
2010-04-25
- Title:
-
Automatic multidocument summarization based onthe latent Dirichlet topic allocation model
- 文章编号:
-
1673-4785(2010)02-0169-08
- 作者:
-
杨 潇1,马 军2,杨同峰2,杜言琦2,邵海敏2
-
1.山东经济学院 信息管理学院,山东 济南 250014;
?2.山东大学 计算机科学与技术学院,山东 济南 250101
- Author(s):
-
YANG Xiao1, MA Jun2, YANG Tong-feng2, DU Yan-qi2, SHAO Hai-min2
-
1. School of Information Management, Shandong Economic University, Ji’nan 250014, China;
2. School of Computer Science and Technology, Shandong University, Ji’nan 250101, China
-
- 关键词:
-
多文档自动文摘; 句子分值计算; 主题模型; LDA; 主题数目
- Keywords:
-
multidocument summarization; sentence scoring; topic model; latent dirichlet allocation; number of topics
- 分类号:
-
TP391
- 文献标志码:
-
A
- 摘要:
-
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
- Abstract:
-
The representative problem of multidocument summarization using probabilistic topic models has begun receiving considerable attention. A multidocument summarization method was proposed based on the latent dirichlet allocation (LDA) model, itself a model representative of probabilistic generative topic models. In this method, the number of topics in the LDA model was determined by model perplexity, and the probabilistic sentence distribution on topics and the probabilistic topic distribution on words were obtained by the Gibbs sampling method. The importance of topics was determined by the sum of topic weights on all sentences. Two sentencescoring methods were proposed, one based on sentence distribution and the other on topic distribution. Evaluated by the recalloriented understudy for gisting evaluation (ROUGE) metrics, results of the both proposed methods surpassed the stateoftheart SumBasic system and the other two LDA based summarization systems for all the ROUGE scores on the DUC2002 generic multidocument summarization test set.
备注/Memo
收稿日期:2010-01-05.
基金项目:
国家自然科学基金资助项目(60970047);
山东省自然科学基金资助项目(Y2008G19);
山东省科技计划资助项目(2007GG10001002, 2008GG10001026).
通信作者:杨 潇.E-mail:yangx@mail.sdu.edu.cn.
作者简介:
杨 潇,女,1981年生,博士,主要研究方向为自然语言处理.发表学术论文10余篇.
马 军,男,1956年生,教授,博士生导师,主要研究方向为算法分析与设计、信息检索和并行计算.曾主持2项国家“863”计划金项目课题,1项国家自然基金课题,2项教育部基金课题和多项省基金课题.发表学术论文80余篇.
?杨同峰,男,1985年生,博士研究生,主要研究方向为个性化检索和图像标注.
更新日期/Last Update:
2010-05-24