表格是文檔中常見的對象。從學(xué)生經(jīng)常填寫的報名表,到辦公場景中涉及的財務(wù)報表、票據(jù),表格識別的需求廣泛存在于個人生活、社會生產(chǎn)之中。尤其在進入九月之后,隨著高校開學(xué),企業(yè)開始著手下一年度的發(fā)展規(guī)劃,表格處理的任務(wù)不斷加重。高精確度的表格識別技術(shù)能夠大幅節(jié)省文件處理時間,是合合信息智能文字識別技術(shù)中,圖像處理和復(fù)雜場景文字識別技術(shù)的重要應(yīng)用。
用深度學(xué)習技術(shù)解決表格識別難點 表格識別主要包括表格檢測和表格結(jié)構(gòu)識別兩大任務(wù)。表格檢測主要檢測表格主體,即從圖片中確認表格區(qū)域;表格結(jié)構(gòu)識別是對表格區(qū)域進行分析,提取表格中的數(shù)據(jù)與結(jié)構(gòu)信息,得到表格的行列邏輯結(jié)構(gòu)。
兩大任務(wù)均具有相當?shù)膹?fù)雜性。首先,表格類別多樣,根據(jù)有無邊框可以分為有線表、少線表、無線表等。從有線表、少線表到無線表,表格識別難度逐漸增加。同時,表格文件中常見的背景填充、單元格行列合并等情況,會進一步增加表格識別難度。其他外部因素,如圖片傾斜褶皺、背景干擾等問題,都會對表格識別帶來挑戰(zhàn)。
合合信息通用智能文字識別引擎對合并單元格表格進行識別
近年來人工智能技術(shù)飛速發(fā)展,計算機視覺(CV)、自然語言處理(NLP)和圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習方法被廣泛引入表格識別任務(wù)中,例如語義分割、目標檢測、序列預(yù)測等。在16年領(lǐng)域深耕中,合合信息智能文字識別技術(shù)覆蓋了圖片、PDF格式文檔中多種類的表格識別需求,包括有線表,三線表,無線表等,并且支持合并單元格、多表格并存等復(fù)雜情況的識別。
基于分治思想,合合信息引入深度學(xué)習技術(shù),將表格識別分為有線表識別和無線表識別兩種方案。有線表識別中,合合信息利用語義分割、角點回歸等技術(shù)方案還原有線表,在財報相關(guān)表格識別測試中,有線表識別單元格結(jié)構(gòu)準確率高于98%。
無線表識別是表格識別中的難點,教科書上的部分統(tǒng)計表、藥品配方表,都存在框線不完整甚至無框線的情況。無線表缺少表格線,直接套用有線表識別方案無法得到理想的表格結(jié)構(gòu)。合合信息無線表識別采用序列模型、規(guī)則匹配等方案,通過自研模型直接預(yù)測表格的邏輯結(jié)構(gòu),再得到表格的物理結(jié)構(gòu),在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準確率較傳統(tǒng)方法顯著提升。
合合信息通用智能文字識別引擎對無線表格進行識別
智能文字識別助力文件處理效率指數(shù)級提升 現(xiàn)階段,合合信息智能文字識別技術(shù)中的表格識別技術(shù)已被應(yīng)用于以“掃描全能王”為代表的C端APP中,通過“文件轉(zhuǎn)換excel”功能服務(wù)于大眾生活和辦公需求。生活中,用戶可以使用掃描全能王隨手拍下手邊的清單、個人合同、說明書等,APP將提煉其中的表格內(nèi)容,起到備忘作用;辦公場景下,使用者可掃描、拍攝工作文件,提取圖片、PDF中的文字內(nèi)容,并將其轉(zhuǎn)化為可編輯文檔,便于二次編輯和分享。近半年來,“文件轉(zhuǎn)換excel”相關(guān)功能累計被調(diào)用百萬次。
B端領(lǐng)域中,作為合合信息智能文字識別引擎中的重要模塊,表格識別技術(shù)已落地在保險、銀行、證券等行業(yè)中,應(yīng)用于合同、銀行流水、物流單據(jù)識別等多個場景。以財務(wù)場景為例,合合信息表格識別技術(shù)被應(yīng)用于企業(yè)發(fā)票與訂單的數(shù)字全流程管理中,曾助力全球知名汽車零配件供應(yīng)商偉巴斯特實現(xiàn)票據(jù)智能掃描、識別、驗真、合規(guī)自動檢查、發(fā)票與訂單數(shù)據(jù)匹配、數(shù)字化數(shù)據(jù)、影像留存等全流程財稅管理,作業(yè)效率提升500%~1000%。
據(jù)悉,合合信息曾在2019年國際文檔分析識別大會(ICDAR)中獲得表格識別競賽的冠軍。公司智能文字識別相關(guān)技術(shù)還在國際頂會ICPR、ICFHR 等競賽中獲得十余項冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會上發(fā)表。