基于混合視覺策略的異構表格抽取研究
所屬分類:技術論文
上傳者:wwei
文檔大?。?span>1671 K
標簽: 表格檢測 表格文本識別 PP-OCRv4
所需積分:0分積分不夠怎么辦?
文檔介紹:本研究旨在解決軍事領域中異構表格數(shù)據(jù)的識別與抽取問題,提出了一種基于混合視覺策略的表格抽取與體系化存儲框架。首先采用融合Mask R-CNN和Unet的表格檢測算法與基于PP-OCRv4表格文本識別方法,實現(xiàn)了對于原始數(shù)據(jù)的檢測及電子化,并引入IoT指標解決現(xiàn)實表格數(shù)據(jù)的文本換行、溢出等問題;然后,提出了一種自適應的表格標準化重構方法,使得多來源的異構表格數(shù)據(jù)可實現(xiàn)結構化、體系化的統(tǒng)一存儲;最后探討了如何將提取的結構化數(shù)據(jù)應用于軍事知識庫構建,為海量知識數(shù)據(jù)的自動化提取與標準化存儲提供了數(shù)據(jù)支撐。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。