[1]史广顺,肖 萃,王庆人.数学公式图像的结构理解与重现[J].智能系统学报,2008,3(5):401-407.
SH I Guang-shun,XIAO Cui,WANG Qing-ren.Reconstructing mathematical expressions from image data[J].CAAI Transactions on Intelligent Systems,2008,3(5):401-407.
点击复制
《智能系统学报》[ISSN 1673-4785/CN 23-1538/TP] 卷:
3
期数:
2008年第5期
页码:
401-407
栏目:
学术论文—人工智能基础
出版日期:
2008-10-25
- Title:
-
Reconstructing mathematical expressions from image data
- 文章编号:
-
1673-4785 (2008) 05-0401-07
- 作者:
-
史广顺, 肖 萃, 王庆人
-
南开大学机器智能研究所,天津300071
- Author(s):
-
SH I Guang-shun, XIAO Cui, WANG Qing-ren
-
Institute ofMachine Intelligence,NankaiUniversity, Tianjin 300071, China
-
- 关键词:
-
数学公式识别; 版面结构分析; 语法结构分析; 数学公式结构理解
- Keywords:
-
mathematical exp ression recognition; layout analysis; syntactic analysis; mathematical exp ression un2 derstanding
- 分类号:
-
TP391
- 文献标志码:
-
A
- 摘要:
-
数学公式图像识别与理解是文档图像处理领域的重要组成部分,目前尚无满足一般应用的处理方法. 提出了一种鲁棒的数学公式结构理解方法,使用公式图像识别结果、语法规则和句法规则分析数学公式结构,对数学公式的类型进行了完整的划分,对识别结果的错误进行自动的检查和纠正,能够自动分析数学公式符号的优先级和计算顺序. 既可以应用于数学公式图像的识别与格式转换,也可应用于对数学公式的检索和辅助编辑. 基于1 000个真实公式图像的实验结果证明了分析方法的有效性和稳定性.
- Abstract:
-
Mathematical exp ressions appear in many kinds of scientific documents and technical reports. Under2 standing and reconstructing mathematical exp ressions has become an important p roblem in the domain of document image analysis. The authors developed a robust method for the analysis of structure in mathematical exp ressions. After images are p rocessed, generating recognition results, this method analyzes the structure of mathematical ex2 p ressions according to syntax rules and syntactic rules. Classification into different types of mathematical exp res2 sions is then made. Syntax errors in the recognition p rocess are checked and corrected automatically. The p referen2 tial level and the computing sequences of arithmetical operation signs in mathematical exp ressions are also automati2 cally analyzed. Thismethod can be app lied to the recognition of images containing mathematical exp ressions and transforming between formats, and is useful in retrieval and editing of mathematical exp ressions. About 1000 ima2 ges ofmathematical exp ressions from real documentswere used for performance evaluation. The test results p roved the stability and efficiency of thismethod
备注/Memo
收稿日期: 2008-04-16.
基金项目:天津市自然科学基金资助项目(05YFJMJC01500) .
作者简介:
史广顺,男, 1978年生,副教授,硕士生导师,先后负责省部级科研项目4 项,参与省部级与国家级科研项目10 余项. 主要研究方向为模式识别与机器智能、数字图像处理、自然语言理解、软件开发技术.
?肖 萃,女, 1984 年生,硕士研究生,主要研究方向为文档图像处理、模式识别.
王庆人,男, 1965 年生,教授,博士生导师. 1989年创造性的实现基于熵分类的OCR引擎,并于1992~1994连续 3年获得美国UNLV全球析与OCR评比冠军. 先后承担国家级、省部级项目 20余项,主要研究方向为模式识别与机器智能. 发表IEEE期刊论文10余篇.
?通信作者:史广顺. E-mail: gsshi@nankai. edu. cn.
更新日期/Last Update:
2009-05-18