java進行pdf解析 pdfbox

2021-08-30 11:57:46 字數 278 閱讀 8295

對pdf解析有不少成熟技術,經過選型,我最後選定用pdfbox。

前面那個flash上傳的是pdf,實際儲存到資料庫的也是pdf,但中間還有個過程:轉換為text文字,並抽取作者、時間、標題、、、之類的資訊進行索引(用的lucene)

因為pdfbox原生提供了生成lucenedocument的類,所以不需要什麼程式設計,只針對特殊需求hack了幾個小地方,因此就不貼**了。

這個貼的目的就是推薦一下pdfbox,以後需要用到pdf->text的,這個工具值得使用。

【2009-8】

PDF解析流程

pdf解析流程 a 從trailer中找到root關鍵字,root是指向catalog字典,catalog是乙個pdf檔案的總入口,它包含page tree,outline hierarchy等。b 從catalog中找到pages關鍵字,pages是pdf所有頁面的總入口,即page tree r...

php解析pdf文字

1.使用composer引入第三方類庫 composer require smalot pdfparser2.目錄結構pdfparser vendor index.php index.html 3.php中引入自動載入 require vendor autoload.php class index ...

PDF解析記錄 Pdfbox

此文僅作記錄 嫌放電腦裡礙事 內容為以前收集的一小段 下面為pdf獲取文字的簡要 片段 private string getpdftext string filename 其中對於舊版本,如pdfbox0.7.3版本,對於一些pdf解析會有問題,例如提示 unknown encoding for u...