GitHub Star 13.6k,顶级项目全新开源表格识别算法
导 读
这种情况下你会怎么做呢,新建一个Excel一个一个数据敲么,辛辛苦苦半天赶出来,领导还会来一句,怎么这么慢,简直郁闷死……
效果展示
版面分析+表格识别
如图所示,针对一张完整的PDF图片,这个开源项目可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件。
不仅仅是PDF文件转excel,如果编程能力再强一些,结合版面分析技术,PDF转Word都不在话下。
而且使用也是非常方便,在完成Python whl包安装之后,简单几行代码即可完成快速试用。
最终结果会输出图片文件夹,Excel表和文字识别结果,确实是非常方便。
传送门:
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md
版面分析与表格识别核心技术概述
(1)传统方法:版面分析比较著名的是O’Gorman在1993年TPAMI中发表的算法Docstrum。通过自下而上的方法依次将图像中的黑白连通域划分为文字、文本行与文本块,从而得到版面布局。表格识别的传统方法通过腐蚀、膨胀等操作获得表格线、划分行列区域,然后将单元格与文本内容相结合重构为表格对象。但是传统算法主要问题在于,对于版面布局分析和表格结构的提取,图像处理的方法依赖各种阈值和参数的选择,对于不同场景下的文档图片难以保证泛化性。
(2)深度学习方法:除了直接使用检测模型来对版面内容进行分类以外,还融合了检测、分割、图神经网络、注意力机制等众多前沿技术能力。依赖算法工程师对于深度神经网络的精心设计,可以不再依赖阈值与参数,具有更好的泛化性。
PP-Structure核心技术解读
版面分析技术
Layout-Parser是开源的基于深度学习的文档图像分析工具箱,可用于布局检测,字符识别和许多其他文档处理任务,包含大量丰富模型,支持自定义DL模型,支持多个文档布局检测数据集。
GitHub地址:
https://github.com/Layout-Parser/layout-parser
表格识别技术
(4)Cell坐标聚合模块,主要用来解决如何将跨行单元格的文本重新拼接在一个单元格内的问题。它通过计算由文本检测算法获得的文本框坐标(红色框)与表格结构预测模块得到的Cell坐标(蓝色框)之间的IOU和顶点距离来进行单行到多行的聚合。使用IOU判断哪些红色框同属于一个蓝色框,使用顶点距离和IOU判断红色框的排列顺序。
(5)Cell文本聚合模块,根据已有的红色文本框顺序,按照从上到下从左到右顺序利用(4)Cell坐标聚合模块的结果将(2)文本识别结果和进行拼接,这样对于多行文本的单元格内容即可拼接成一个字符串。
(6)Excel导出模块,将(3)表格结构预测结果html结果与(5)Cell文本聚合模块文本结果结合,最终导出为Excel输出。
以上所有内容均在PaddleOCR项目开源,目前star数量超过13.5k
相关延伸阅读:
PaddleOCR历史表现回顾
2020年6月,8.6M超轻量模型发布,GitHub Trending 全球趋势榜日榜第一。
2020年8月,开源CVPR2020顶会算法,再上GitHub趋势榜单!
2020年10月,发布PP-OCR算法,开源3.5M超超轻量模型,再下Paperswithcode 趋势榜第一
2021年1月,发布Style-Text文本合成算法,PPOCRLabel数据标注工具,star数量突破10000+,截至目前已经达到11.5k,在《Github 2020数字洞察报告》中被评为中国GithubTop20活跃项目。
2021年4月,开源AAAI顶会论文PGNet端到端识别算法,Star突破13k
2021年8月,开源版面分析与表格识别算法
文本检测识别效果:
这个最强OCR项目,你值得拥有:
https://github.com/PaddlePaddle/PaddleOCR
8月12日(周四)20:15-21:30百度高级研发工程师将带我们解读文档分析技术PP-Structure及PaddleOCR应用落地经验,欢迎大家踊跃报名直播课!
扫描二维码报名,立即加入交流群
·PaddleOCR项目地址·
Gitee:
https://gitee.com/paddlepaddle/PaddleOCR
-
Penpot Github上一款火爆的开源设计与原型平台
Penpot 拥有丰富的设计功能,包括矢量图形编辑、组件化、多人协作等,使用户能够轻松创建复杂的设计和原型。另外,平台还支持实时共享和评论,帮助团队成员进行即时的沟通和反馈,提高工作效率。Penpot
-
uptime-kuma一款轻量级监控利器!
监控工具一直是我们日常工作中必备的利器之一,在之前推送的文章中,也介绍了非常多的好用、实用的监控工具,需要了解的读者朋友们可以点击文首监控系统专栏查阅相关的文章。今天,给大家介绍别一款开源监控利器!u
-
中国开发者数量全球第二,C 语言一跌再跌!GitHub 年度报告重磅发布
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)不知不觉中,2021 年的日历已经翻到了 11 月中旬,各种年度报告也开始蓄势待发。这不,全球知名代码托管平台 GitHub 今天就重磅发布
关注公众号:拾黑(shiheibook)了解更多
赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 宁德时代吴凯:发展储能产业不能再走先求速度再求质量的老路
- 韩元汇率对人民币2023年9月21日
- 助力百所院校开展数字化教育 统信软件全面赋能“双师”培养
- 加快推进数字化转型 湖南全力打造国家重要先进制造业高地
- 践行“东数西算”,运营商如何布局算力?
- 电子纸B端应用更流行,华为苹果缘何忙?
- 中国广电5G核心网工程-业务平台项目集采结果公示:华为、中兴中标
- 这几个高级前端常用的API,你用到了吗?
- 华为澄清:轮值董事长徐直军跳槽系网络谣言
- 滴滴计划2021年赴港IPO,估值600-800亿美元;爱奇艺VR获数亿元B轮融资;特斯拉推出Model Y儿童学步车【Do说】
- 2020全球零售科技创新TOP50 | 亿欧智库
- 美国5G 发展之路