010-68421378
sales@cogitosoft.com
産品分類
AddFlow  AmCharts JavaScript Stock Chart AmCharts 4: Charts Aspose.Total for Java Altova SchemaAgent Altova DatabaseSpy Altova MobileTogether Altova UModel  Altova MapForce Altova MapForce Server Altova Authentic Aspose.Total for .NET Altova RaptorXML Server ComponentOne Ultimate Chart FX for SharePoint Chart FX CodeCharge Studio ComponentOne Enterprise combit Report Server Controls for Visual C++ MFC Chart Pro for Visual C ++ MFC DbVisualizer version 12.1 DemoCharge DXperience Subscription .NET DevExpress Universal Subscription Essential Studio for ASP.NET MVC FusionCharts Suite XT FusionCharts for Flex  FusionExport V2.0 GrapeCity TX Text Control .NET for WPF GrapeCity Spread Studio Highcharts Gantt Highcharts 10.0 版 HelpNDoc Infragistics Ultimate  ImageKit9 ActiveX ImageKit.NET JetBrains--Fleet JetBrains-DataSpell JetBrains--DataGrip jQuery EasyUI jChart FX Plus OPC DA .NET Server Toolkit  OSS ASN.1/C Oxygen XML Author  OSS 4G NAS/C, C++ Encoder Decoder Library OSS ASN.1 Tools for C with 4G S1/X2 OSS ASN.1/C# OSS ASN.1/C++ OPC HDA .NET Server Toolkit OPC DA .Net Client Development Component PowerBuilder redgate NET Developer Bundle Report Control for Visual C++ MFC  Sencha Test SPC Control Chart Tools for .Net Stimulsoft Reports.PHP Stimulsoft Reports.JS Stimulsoft Reports.Java Stimulsoft Reports. Ultimate Stimulsoft Reports.Wpf Stimulsoft Reports.Silverlight SlickEdit Source Insight Software Verify .Net Coverage Validator Toolkit Pro for VisualC++MFC TeeChart .NET Telerik DevCraft Complete Altova XMLSpy Zend Server

PDFlib TET

TET 5 

PDFlib GmbH發(fā)布瞭(le)新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之後(hòu)逐漸(jiàn)改名爲»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。

TET檢索文本、圖像、PDF文檔中的元數據和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢(jiǎn)索:

檢索文本的填充色和描邊色

改善布局檢測

 

· 圖(tú)像檢(jiǎn)索

顯著增強分散圖像的合並

提取圖像蒙版和軟蒙版

 

· 頁(yè)面處(chù)理:

榮譽圖層和剪輯路徑

 

· TETML 内容:

包括符号的填充色和描邊(biān)色、顔色空間(jiān)和ICC文件配置細節

 

一些新的pCOS 僞對象

全新的PDFlib TETPDF IFilter 5 (企業版PDF搜索應用於(yú)窗口)版本現(xiàn)已可用。

 

 

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用於從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護那些打開不需要密碼的PDF文檔

損壞的PDF文檔将被修複

世界的所有寫作系統

TET在世界上所有書寫系統中處(chù)理PDF文檔,並(bìng)實現某些腳本所需的特殊處(chù)理:

拉丁語,希臘(là)語和西裏爾(ěr)字母,包括脫音

阿拉伯語和希伯來語,包括從(cóng)右到左和雙向文本的邏輯重新排序;阿拉伯語呈現形式的規範(fàn)化

簡體和繁體中文,日語和韓(hán)語,無論編(biān)碼;水平和垂直文本

印度文字(無字形重排)

Unicode支持的所有其他語(yǔ)言和腳(jiǎo)本

Unicode

由於(yú)PDF中的文本通常不以Unicode編(biān)碼 ,因此PDFlib TET将PDF文檔中的文本标準化爲Unicode:

TET将所有文本内容轉換爲Unicode。在C和其他非Unicode感知語言中,文本以UTF-8或UTF-16格式返回,並(bìng)作爲具有Unicode功能的編(biān)程語言的本地字符串返回。

字符和其他多字符字形被分解爲(wèi)相應(yīng)的Unicode字符序列 。

沒有适當(dāng)的Unicode映射的字形被識别,並(bìng)被映射到可配置的替換字符,以避免誤解。

TET針對特定文檔(dàng)創(chuàng)建包(例如InDesign和TeX文檔(dàng)或在大型機系統上生成的PDF)的問題實施各種解決方法。

内容分析和字檢測

TET包括專(zhuān)利内容分析算法:

確(què)定檢索正確(què)單詞所需的單詞邊(biān)界

重組(zǔ)連(lián)字字的部分(去連(lián)字)

删除重複(fù)的文字實(shí)例,例如陰影和人爲粗體文本

按閱讀順序重新組合段落

正確(què)排序散布在頁(yè)面上的文本

頁面布局和表檢測

分析頁面内容以確(què)定文本列 。檢測表,包括跨越多個列的單元格。這改進瞭(le)提取的文本的排序。可以标識表行和每個表單元格的内容。

幾何

TET提供瞭(le)文本的精確(què)度量,例如頁面上的位置,字形寬度和文本方向。頁面上的特定區域可以被排除或包括在文本提取中,例如。以忽略頁眉和頁腳或邊距。

文本顔色

TET分析PDF頁面描述中的顔色信息,並(bìng)返回每個字形的精確顔色信息。這可以用於(yú)例如識别标題或其他突出顯示的文本。

圖像提取

PDF頁面上的圖像可以提取爲TIFF,JPEG,JPEG 2000或JBIG2文件。針對每個圖像報告精確的幾何信息(位置 ,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由於(yú)不進行下採樣或顔色轉換 ,保證瞭(le)圖像保真度。這確保瞭(le)最高的圖像質量。

PDF分析

TET庫包括用於(yú)查詢PDF文檔(dàng)的詳細信息的pCOS接口,例如文檔(dàng)信息和XMP元數據,字體列表,頁面大小等等 。

有問題的PDF的配置選項

TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他産(chǎn)品正確(què)提取。此外,它包括各種配置功能,以改善問題文檔的處理:

Unicode映射可以通過用戶提供的表來定制,用於(yú)将字符代碼或字形名稱(chēng)映射到Unicode。

PDFlib FontReporter是一個用於(yú)分析PDF中的字體,編(biān)碼和字形的輔助工具。它作爲Adobe Acrobat的插件。此插件可免費用於(yú)OS X / macOS和Windows。

分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統字體來(lái)提高文本提取結(jié)果。

Unicode後處理

TET支持各種Unicode後處(chù)理步驟 ,可用於(yú)改進提取的文本:

折疊保留,删除或替換字符,例如。從(cóng)不相關的腳本中删除标點(diǎn)符号或字符。

分解用一個或多個其他字符的等效序列替換字符 ,例如。用其各自的标準對(duì)應物替換窄的,寬的或垂直的日語字符或拉丁上标變(biàn)體。

文本可以轉換爲所有四種Unicode标準化形式 ,例如。發(fā)射NFC表單(dān)以滿足Web文本或數據庫的要求。

文檔域

PDF文檔可能包含除頁面内容之外的其他位置的文本。雖然大多數應用程序将僅處(chù)理頁面内容,但在許多情況下,其他文檔域也可能是相關的。 TET從(cóng)以下所有文檔域中提取文本:

頁面内容

預定義和自定義文檔(dàng)信息條(tiáo)目

文檔(dàng)和圖像級(jí)别的XMP元數據

書簽

文件附件和PDF文件包可以遞(dì)歸處(chù)理

表單域

評論(注釋)

可查詢一般PDF屬(shǔ)性,如頁數(shù),符合PDF / A或PDF / X等标準。

XMP元數據

TET以多種方式支持XMP元數(shù)據(jù) :

使用集成的pCOS接口 ,可以以編(biān)程方式提取文檔,單(dān)個頁面,圖像或文檔的其他部分的XMP元數據。

TETML輸出包含XMP文檔(dàng)和圖像元數據(如果存在於(yú)PDF中)。

以TIFF或JPEG格式提取的圖像包含圖像元數據(jù)(如果存在於(yú)PDF中)。

TETML表示作爲XML的PDF内容

TET可選地表示稱(chēng)爲TETML的XML風格中的PDF内容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進行處(chù)理。 TETML包含實際文本以及可選的字體和位置信息,資源詳細信息(字體,圖像,顔色空間)和元數據。

TETML還包括交互式元素,例如表單(dān)字段,注釋,書簽等。它甚至可以用於(yú)分析JavaScript或顔色空間細節,ICC配置文件或輸出意圖。

TETML由相應的XML模式管理,以確(què)保TET始終創建一緻和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應用某些過濾器或将TETML轉換爲其他格式。用於(yú)處理TETML的樣本XSLT樣式表包括在TET分布中。

以下片段顯示具有字形詳細(xì)信息的TETML輸(shū)出:

 

PDFlib

TET連接器

TET連接器提供必要的粘合代碼來與其他軟件進行TET接口。以下TET連接器使PDF文本提取功能可用於(yú)各種軟件環(huán)境:

Lucene搜索引擎的TET連(lián)接器

Solr搜索服務(wù)器的TET連(lián)接器

TIKA工具包的TET連(lián)接器

Oracle Text的TET連(lián)接器

MediaWiki的TET連(lián)接器

TET PDF用於(yú)Microsoft産品的IFilter可作爲單獨的産品提供。它從PDF文檔中提取文本和元數據,並(bìng)使其可用於(yú)在Windows上搜索和檢索軟件。

TET食譜

TET Cookbook是一個編程示例的集合,演示瞭(le)TET對各種文本和圖像提取任務的使用。幾個Cookbook示例展示瞭(le)如何結合TET和PDFlib + PDI産品,以增強PDF文檔,例如。基於(yú)頁面上的文本添加書簽或鏈接。

 

快速導航

                               

 京ICP備09015132号-996 | 違法和不良信息舉報(bào)電(diàn)話:4006561155

                                   © Copyright 2000-2026 北京哲想軟件有限公司版權所有 | 地址:北京市海澱(diàn)區西三環北路50号豪柏大廈C2座11層(céng)1105室

                         北京哲想軟件集團旗下網站:哲想軟件 | 哲想動畫

                            華滋生物