Adobe推內容擷取API 釋放PDF更多內容

Adobe
企業可按用途需要,使用PDF Extract API快速準確地提取數據。

新科技速遞

全球不少文件系統都是利用PDF文件交換,從文件擷取內容(Data Capturing),才能輸入系統,往往也是不少系統整合最大挑戰之一,尤其近年RPA(機械人流程自動化),自動處理報價表和賬單。

從PDF擷取內容,往往必須靠光學字元辨識(OCR)工具,掃描PDF文件並找出內容,甚至是表格內容,表格上不同位置的數據,OCR也有不少限制,也未必可完全凖確擷取文件內容和屬性,有時要以不同工具,甚至靠人手核對。

市場上PDF文件可通過不同系統生成,例如是ERP系統,從Word或Excel和其他文件轉存而成,甚至從影像掃描產生,部分系統只產生供人類閱讀的PDF,從未預計最終要與機器溝通,以至PDF從個別系統生成後,結構並不容易供電腦辨認,如果辦認表格,就更加麻煩。

雖然RPA工具可通過人工智能,決定文件上某個位置數據;市場上領先工具ABBYY,亦可凖確辨認不同PDF,但往往不能解決全部問題;開發人員動用多種工具,才取出PDF所有數據。

PDF五花八門

系統辨認PDF,往往要先搞清楚從那個系統產生,如果開發人員可以有更好的應用程式界面,就可以快速擷取內容、圖片、位置,甚至位置和表格,市場上有不少雲端的工具,以擷取PDF內容;例如是PDF.co(https://pdf.co/),並整合到不同工具或系統,從PDF提取內容已成為一門大行業。

Adobe是PDF的開發廠商,推出了Adobe PDF Extract API 和 Adobe Document Generation API 兩個應用程式界面,可能有助解決PDF文件內容交換難題,協助擷取更多PDF文件內容,以編程方式生成具動態數據的檔案。

PDF幾乎成為可攜化文件的統一標凖,而以雲端為基礎API,可協助開發人員加速開發。Adobe已 開發PDF 文件30年,其Adobe電子檔案服務、以雲端為基礎API和SDK,已經可讓開發人員開發方案。

PDF
市場上亦有雲端的API,以擷取PDF內容,例如PDF.co(https://pdf.co/),可整合到不同工具或系統,例如Salesforce.com

雲端為基礎API

Adobe估算,每年約有2.5萬億個新創建PDF檔案。Adobe PDF Extract API 乃建基於Liquid Mode,也是以雲端為基礎的API,同時分析來自掃描和原生PDF的結構,再提取文字、表格數據、圖像等所有PDF元素,了解相對位置、跨欄和分頁的閱讀順序。

據Adobe公佈,PDF Extract API的優勢,在於可提取所有的PDF元素,不少API僅限提取某一種類型元素。此外,許多供應商也有指定平台;Adobe所有API,包括 PDF Extract API則可使用任何現代編程語言或者平台,並準確地提取數據以用於機器學習模型、分析、製作索引或儲存,整合RPA和自然語言處理(Natural Language Processing, NLP) 等下游流程自動化,重新發布適用於多個媒體的PDF內容。

以編程生成動態數據

而Adobe Document Generation API 則可讓開發人員快速設計自訂Microsoft Word 範本,以及生成具動態數據Word和PDF檔。

Document Generation API還包括了與 Adobe Sign作整合、開箱即用工具,隨時可在檔案中使用電子簽名,以產生發票和報價等文件。Document Generation API 還可與適用於 Microsoft Power Automate的 Adobe PDF Tools 連接器一起使用,Power Platform能自動化預備發票、協議等檔案流程。

Leave a Reply

Your email address will not be published. Required fields are marked *