資料格式轉換(二)純文字抽出

2022-08-27 03:42:11 字數 2203 閱讀 5783

dmctextfilter是由北京紅櫻楓軟體****研製和開發的純文字抽出通用程式庫產品。本產品可以從各種各樣的文件格式的資料中或從插入的ole物件中,完全除掉特殊控制資訊,快速抽出純文字資料資訊。便於使用者實現對多種文件資料資源資訊進行統一管理,編輯,檢索和瀏覽。

本產品採用了先進的多語言、多平台、多執行緒的設計理念,支援多國語言(英語,中文簡體,中文繁體,日本語,南韓語),多種作業系統(windows,solaris,linux,ibm aix,macintosh,hp-unix),多種文字集合**(gbk,gb18030,big5,iso-8859-1,ks x 1001,shift_jis,windows31j,euc-jp,iso-10646-ucs-2,iso-10646-ucs-4,utf-16,utf-8等)。提供了多種形式的api功能介面(檔案格式識別函式,文字抽出函式,檔案屬性抽出函式,頁抽出函式,設定user password的pdf檔案的文字抽出函式等),便於使用者方便使用。使用者可以十分便利的將本產品組裝到自己的應用程式中,進行二次開發。通過呼叫本產品的提供的api功能介面,實現從多種文件格式的資料中快速抽出純文字資料。本產品在國內外得到了廣泛的應用,在產品效能和質量上都得到了使用者高度的好評。

(1)原資料檔案的語言

中國語(簡體/繁體),英語,日本語及南韓語。

(2)文字抽出時可以指定以下的文字集合

★中文簡體(gb2312、gb18030、gbk)

★中文繁體(big5)

★日文(jis、shift_jis、euc_jp、euc_jp_fix、iso2022_jp、window31j)

★韓文(koreanksc)

★西文(iso8859-1~15)

★unicode(utf8、utf16、ucs4、ucs8)

(3)原資料檔案格式的種類

·microsoft word95/97/98/2000/2003/xp/2007/2010/2013

·microsoft excel95/97/2000/2003/xp/2007/2010/2013

·microsoft powerpoint95/97/2000/2003/xp/2007/2010/2013

·adobe pdf 1.2/1.3/1.4/1.5/1.6/1.7

·adobe pagemaker 6.0/6.5

·microsoft rtf

·lotus 1-2-3 r5/97/98/2000

·works 2000 wp/db/ss

·一太郎 7/8/9/10/11/12/13

·oasys v3/v4/v5/v6/v7/v8 oa2

·clarisworks 4.0

·wordperfect office 2000(僅限於wordperfect 8/9 )

·corel presentations 9(slide show 7/8/9)

·quarkxpress 3.3/4

·autocad gx-iii/gx-5/r12/r13/r14 /2000/2002/2004/2005/2006 dxf形式

·autocad gx-iii/gx-5/r12/r13/r14 /2000/2002/2004/2005/2006 dwg形式

·autocad 2007 dxf 形式

·autocad 2007 dwg 形式

·autocad 2010 dxf 形式

·autocad 2010 dwg 形式

·docuworks ver.4/5

·html

·xml

(4)文字抽出時可以指定以下的功能

★從指定的檔案或嵌在檔案中的ole物件中抽出文字資料。

★從指定的檔案中,將檔案的屬性資訊進行抽出。

★從指定的檔案中,抽出指定頁中的文字資料。

★從設定了安全保護的pdf檔案中抽出文字資料。

目前主要突出體現出如下應用價值:

1) 為海量非結構化資源提供了智慧型加工工具,提高資訊資源加工效率;同時,可為政務資訊資源服務的使用者提供智慧型檢索和挖掘分析的手段,放大政務資訊資源增值效用。

2) 此軟體在國家相關部門的搜尋引擎以及多個行業垂直搜尋引擎服務的建設中,獲得了成功應用,可以為提高垂直搜尋引擎服務的智慧型化、行業化和知識化水平奠定了基礎。

3) 此軟體為相關機構從事內容安全管理提供了智慧型化的技術,可以降低監管成本,提高監管效率。

4) 此軟體可以作為資訊資源利用和知識管理應用的基礎構件,為企業資訊資源的加工、分析和服務提供先進智慧型的文字轉換技術。

資料格式轉換(二)純文字抽出

dmctextfilter是由北京紅櫻楓軟體 研製和開發的純文字抽出通用程式庫產品。本產品可以從各種各樣的文件格式的資料中或從插入的ole物件中,完全除掉特殊控制資訊,快速抽出純文字資料資訊。便於使用者實現對多種文件資料資源資訊進行統一管理,編輯,檢索和瀏覽。本產品採用了先進的多語言 多平台 多執行...

資料格式轉換(二)純文字抽出

dmctextfilter是由北京紅櫻楓軟體 研製和開發的純文字抽出通用程式庫產品。本產品可以從各種各樣的文件格式的資料中或從插入的ole物件中,完全除掉特殊控制資訊,快速抽出純文字資料資訊。便於使用者實現對多種文件資料資源資訊進行統一管理,編輯,檢索和瀏覽。本產品採用了先進的多語言 多平台 多執行...

資料轉換服務 純文字抽出技術

隨著網路資訊時代的發展,資料轉換技術也在不斷的飛速發展。人們可以通過計算機與網際網路聯接,從世界各地實時的接收和傳送大量 最新的資訊,但在資訊交換的過程中存在著乙個突出的問題,就是多種多樣的資料格式,給資訊的有效使用帶來了障礙。所以在資訊時代,如何以最便捷 最可靠 最有效的方式獲取所需的資訊是乙個很...