Adobe推內容擷取API 釋放PDF更多內容

新科技速遞

全球不少文件系統都是利用PDF文件交換，從文件擷取內容（Data Capturing），才能輸入系統，往往也是不少系統整合最大挑戰之一，尤其近年RPA（機械人流程自動化），自動處理報價表和賬單。

從PDF擷取內容，往往必須靠光學字元辨識（OCR）工具，掃描PDF文件並找出內容，甚至是表格內容，表格上不同位置的數據，OCR也有不少限制，也未必可完全凖確擷取文件內容和屬性，有時要以不同工具，甚至靠人手核對。

市場上PDF文件可通過不同系統生成，例如是ERP系統，從Word或Excel和其他文件轉存而成，甚至從影像掃描產生，部分系統只產生供人類閱讀的PDF，從未預計最終要與機器溝通，以至PDF從個別系統生成後，結構並不容易供電腦辨認，如果辦認表格，就更加麻煩。

雖然RPA工具可通過人工智能，決定文件上某個位置數據；市場上領先工具ABBYY，亦可凖確辨認不同PDF，但往往不能解決全部問題；開發人員動用多種工具，才取出PDF所有數據。

PDF五花八門

系統辨認PDF，往往要先搞清楚從那個系統產生，如果開發人員可以有更好的應用程式界面，就可以快速擷取內容、圖片、位置，甚至位置和表格，市場上有不少雲端的工具，以擷取PDF內容；例如是PDF.co（https://pdf.co/），並整合到不同工具或系統，從PDF提取內容已成為一門大行業。

Adobe是PDF的開發廠商，推出了Adobe PDF Extract API 和 Adobe Document Generation API 兩個應用程式界面，可能有助解決PDF文件內容交換難題，協助擷取更多PDF文件內容，以編程方式生成具動態數據的檔案。

PDF幾乎成為可攜化文件的統一標凖，而以雲端為基礎API，可協助開發人員加速開發。Adobe已開發PDF 文件30年，其Adobe電子檔案服務、以雲端為基礎API和SDK，已經可讓開發人員開發方案。

*市場上亦有雲端的API，以擷取PDF內容，例如PDF.co（https://pdf.co/），可整合到不同工具或系統，例如Salesforce.com*

雲端為基礎API

Adobe估算，每年約有2.5萬億個新創建PDF檔案。Adobe PDF Extract API 乃建基於Liquid Mode，也是以雲端為基礎的API，同時分析來自掃描和原生PDF的結構，再提取文字、表格數據、圖像等所有PDF元素，了解相對位置、跨欄和分頁的閱讀順序。

據Adobe公佈，PDF Extract API的優勢，在於可提取所有的PDF元素，不少API僅限提取某一種類型元素。此外，許多供應商也有指定平台；Adobe所有API，包括 PDF Extract API則可使用任何現代編程語言或者平台，並準確地提取數據以用於機器學習模型、分析、製作索引或儲存，整合RPA和自然語言處理(Natural Language Processing, NLP) 等下游流程自動化，重新發布適用於多個媒體的PDF內容。

以編程生成動態數據

而Adobe Document Generation API 則可讓開發人員快速設計自訂Microsoft Word 範本，以及生成具動態數據Word和PDF檔。

Document Generation API還包括了與 Adobe Sign作整合、開箱即用工具，隨時可在檔案中使用電子簽名，以產生發票和報價等文件。Document Generation API 還可與適用於 Microsoft Power Automate的 Adobe PDF Tools 連接器一起使用，Power Platform能自動化預備發票、協議等檔案流程。

Leave a Reply Cancel reply