有一天lucene
與pdfbox
之間多了一位,這便是
xpdf
。pdfbox
女士責罵
lucene
先生說:「我的
api功能如此強大,甚至能和你進行無縫結合,你為什麼還要去找別的女人?」可是
lucene
先生說:「你是知道的,
i love china
,可是你偏偏不支援中文文字的提取
……」於是乎,
lucene
先生就跟
xpdf
女士好上了。
好了,以上就是
xpdf
相對於pdfbox
的優勢了。那麼
lucene
僅憑藉這一原因就拋棄了
pdfbox
了嗎?不,當然不是。每一種技術在它獨有的領域裡面發揮著它最大的能量,
pdfbox
對於lucene
而言,當然還有其他可用之處的。況且每一種技術都更新的很快,現在的
pdfbox
想必已經更新很多次,增加了很多功能了吧。
xpdf
對pdf
檔案的txt
格式轉化,較
pdfbox
xpdf
的所有jar
包和程式。
(我用的是這個版本)和
xpsf-chinese-simplified.tar.gz
xpdf-3.02pl4-win32
解壓後發現有乙個叫做
pdftotext.exe
的應用程式,這個就是
xpdf
將pdf
轉化為txt
的工具了。做乙個小小的示範:將自己的
pdf檔案放到和
pdftotext.exe
檔案所在的同一目錄下;然後開啟
windows
命令列並進入到該目錄下;最後只要在命令列裡輸入這樣的一句話就大功告成了
pdftotxttest.pdftest.txt(
其中,test.pdf
是要轉化的
pdf檔案,
test.txt
是給轉化後
txt檔案命名
)。或者,直接將
test.pdf
拖入到pdftotxt.exe
檔案中,即可直接轉化成
txt檔案了。
通過以上的操作,我們不難發現,
xpdf
是簡單了不少吧。但是,上一會我們也提到,要將
pdf轉化為
txt,並不是看起來那麼簡單的事情,比如轉化後時候保持原來檔案的布局,編碼方式又如何設定,時候列印提示訊息,頁面之間是否加入分頁,如果不保持原來的布局又該怎麼設定等等一系列的
pdf屬性,都需要我們來處理。所以,我們在此寫乙個類,將這些屬性設定進行封裝,最後讓其返回乙個命令列命令的字串,直接呼叫
windows
命令列就
ok了。
(**如下)
這就是對
xpdf
中pdf
檔案的的屬性的封裝了,這裡只列舉了部分屬性,還有其他屬性和用法可以在
xpdf
的官網上學習。
最後,我們在寫乙個測試類進行測試,這裡也可以說是客戶端了。
(**如下)
第三者出現後
當證實他在外面跟情人有那種關係之後,我相信那一刻我的心是痛的,真心的傷心。一直以來我以為我不會再為他去傷心,卻沒有想到心還是那麼痛。哭了乙個下午,我黯然的回到那個家,開啟 不知道能做什麼,眼淚就忍不住流了下來。我聽到女兒幼稚的聲音在跟她奶奶說話,她說,奶奶,我媽媽剛剛哭了,我都沒有哭她還哭。然後聽到...
愛情六十課,總有第三者
在愛情裡,你最怕什麼?80 以上的人,都會說,怕 第三者 但是,大家最怕的 第三者 是一定會出現的。所以,請做好心理準備,即使它不是乙個有形的人,它也會以其他形式存在。第三者,究其定義,是橫在愛情兩個人之間的第三樣事物,它間隔了兩個人黏在一起的時間。讓你在某段時間裡,不能走入他的世界。因為那個時候,...
GTK GDK GLIB三者的關係
什麼是glib?glib庫提供了一系列函式 functions 和定義 definitions 在設計gdk和gtk程式時很有用.它提供了一些標準c函式庫 standard libc 的替代函式,比如malloc,但在其他的系統上使用時有很多問題.什麼是gtk gtk 是乙個小型而高效的控制項庫,具...