TET 5
PDFlib GmbH發(fā)布瞭(le)新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之後(hòu)逐漸(jiàn)改名爲»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。
TET檢索文本、圖像、PDF文檔中的元數據和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢(jiǎn)索:
檢索文本的填充色和描邊色
改善布局檢測
· 圖(tú)像檢(jiǎn)索
顯著增強分散圖像的合並
提取圖像蒙版和軟蒙版
· 頁(yè)面處(chù)理:
榮譽圖層和剪輯路徑
· TETML 内容:
包括符号的填充色和描邊(biān)色、顔色空間(jiān)和ICC文件配置細節
一些新的pCOS 僞對象
全新的PDFlib TETPDF IFilter 5 (企業版PDF搜索應用於(yú)窗口)版本現(xiàn)已可用。

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用於從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護那些打開不需要密碼的PDF文檔
損壞的PDF文檔将被修複
世界的所有寫作系統
TET在世界上所有書寫系統中處(chù)理PDF文檔,並(bìng)實現某些腳本所需的特殊處(chù)理:
拉丁語,希臘(là)語和西裏爾(ěr)字母,包括脫音
阿拉伯語和希伯來語,包括從(cóng)右到左和雙向文本的邏輯重新排序;阿拉伯語呈現形式的規範(fàn)化
簡體和繁體中文,日語和韓(hán)語,無論編(biān)碼;水平和垂直文本
印度文字(無字形重排)
Unicode支持的所有其他語(yǔ)言和腳(jiǎo)本
Unicode
由於(yú)PDF中的文本通常不以Unicode編(biān)碼,因此PDFlib TET将PDF文檔中的文本标準化爲Unicode:
TET将所有文本内容轉換爲Unicode。在C和其他非Unicode感知語言中,文本以UTF-8或UTF-16格式返回,並(bìng)作爲具有Unicode功能的編(biān)程語言的本地字符串返回。
字符和其他多字符字形被分解爲(wèi)相應(yīng)的Unicode字符序列。
沒有适當(dāng)的Unicode映射的字形被識别,並(bìng)被映射到可配置的替換字符,以避免誤解。
TET針對特定文檔(dàng)創(chuàng)建包(例如InDesign和TeX文檔(dàng)或在大型機系統上生成的PDF)的問題實施各種解決方法。
内容分析和字檢測
TET包括專(zhuān)利内容分析算法:
確(què)定檢索正確(què)單詞所需的單詞邊(biān)界
重組(zǔ)連(lián)字字的部分(去連(lián)字)
删除重複(fù)的文字實(shí)例,例如陰影和人爲粗體文本
按閱讀順序重新組合段落
正確(què)排序散布在頁(yè)面上的文本
頁面布局和表檢測
分析頁面内容以確(què)定文本列。檢測表,包括跨越多個列的單元格。這改進瞭(le)提取的文本的排序。可以标識表行和每個表單元格的内容。
幾何
TET提供瞭(le)文本的精確(què)度量,例如頁面上的位置,字形寬度和文本方向。頁面上的特定區域可以被排除或包括在文本提取中,例如。以忽略頁眉和頁腳或邊距。
文本顔色
TET分析PDF頁面描述中的顔色信息,並(bìng)返回每個字形的精確顔色信息。這可以用於(yú)例如識别标題或其他突出顯示的文本。
圖像提取
PDF頁面上的圖像可以提取爲TIFF,JPEG,JPEG 2000或JBIG2文件。針對每個圖像報告精確的幾何信息(位置,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由於(yú)不進行下採樣或顔色轉換,保證瞭(le)圖像保真度。這確保瞭(le)最高的圖像質量。
PDF分析
TET庫包括用於(yú)查詢PDF文檔(dàng)的詳細信息的pCOS接口,例如文檔(dàng)信息和XMP元數據,字體列表,頁面大小等等。
有問題的PDF的配置選項
TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他産(chǎn)品正確(què)提取。此外,它包括各種配置功能,以改善問題文檔的處理:
Unicode映射可以通過用戶提供的表來定制,用於(yú)将字符代碼或字形名稱(chēng)映射到Unicode。
PDFlib FontReporter是一個用於(yú)分析PDF中的字體,編(biān)碼和字形的輔助工具。它作爲Adobe Acrobat的插件。此插件可免費用於(yú)OS X / macOS和Windows。
分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統字體來(lái)提高文本提取結(jié)果。
Unicode後處理
TET支持各種Unicode後處(chù)理步驟,可用於(yú)改進提取的文本:
折疊保留,删除或替換字符,例如。從(cóng)不相關的腳本中删除标點(diǎn)符号或字符。
分解用一個或多個其他字符的等效序列替換字符,例如。用其各自的标準對(duì)應物替換窄的,寬的或垂直的日語字符或拉丁上标變(biàn)體。
文本可以轉換爲所有四種Unicode标準化形式,例如。發(fā)射NFC表單(dān)以滿足Web文本或數據庫的要求。
文檔域
PDF文檔可能包含除頁面内容之外的其他位置的文本。雖然大多數應用程序将僅處(chù)理頁面内容,但在許多情況下,其他文檔域也可能是相關的。 TET從(cóng)以下所有文檔域中提取文本:
頁面内容
預定義和自定義文檔(dàng)信息條(tiáo)目
文檔(dàng)和圖像級(jí)别的XMP元數據
書簽
文件附件和PDF文件包可以遞(dì)歸處(chù)理
表單域
評論(注釋)
可查詢一般PDF屬(shǔ)性,如頁數(shù),符合PDF / A或PDF / X等标準。
XMP元數據
TET以多種方式支持XMP元數(shù)據(jù):
使用集成的pCOS接口,可以以編(biān)程方式提取文檔,單(dān)個頁面,圖像或文檔的其他部分的XMP元數據。
TETML輸出包含XMP文檔(dàng)和圖像元數據(如果存在於(yú)PDF中)。
以TIFF或JPEG格式提取的圖像包含圖像元數據(jù)(如果存在於(yú)PDF中)。
TETML表示作爲XML的PDF内容
TET可選地表示稱(chēng)爲TETML的XML風格中的PDF内容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進行處(chù)理。 TETML包含實際文本以及可選的字體和位置信息,資源詳細信息(字體,圖像,顔色空間)和元數據。
TETML還包括交互式元素,例如表單(dān)字段,注釋,書簽等。它甚至可以用於(yú)分析JavaScript或顔色空間細節,ICC配置文件或輸出意圖。
TETML由相應的XML模式管理,以確(què)保TET始終創建一緻和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應用某些過濾器或将TETML轉換爲其他格式。用於(yú)處理TETML的樣本XSLT樣式表包括在TET分布中。
以下片段顯示具有字形詳細(xì)信息的TETML輸(shū)出:
PDFlib
TET連接器
TET連接器提供必要的粘合代碼來與其他軟件進行TET接口。以下TET連接器使PDF文本提取功能可用於(yú)各種軟件環(huán)境:
Lucene搜索引擎的TET連(lián)接器
Solr搜索服務(wù)器的TET連(lián)接器
TIKA工具包的TET連(lián)接器
Oracle Text的TET連(lián)接器
MediaWiki的TET連(lián)接器
TET PDF用於(yú)Microsoft産品的IFilter可作爲單獨的産品提供。它從PDF文檔中提取文本和元數據,並(bìng)使其可用於(yú)在Windows上搜索和檢索軟件。
TET食譜
TET Cookbook是一個編程示例的集合,演示瞭(le)TET對各種文本和圖像提取任務的使用。幾個Cookbook示例展示瞭(le)如何結合TET和PDFlib + PDI産品,以增強PDF文檔,例如。基於(yú)頁面上的文本添加書簽或鏈接。