PDF解析記錄 Pdfbox

2022-08-02 17:54:08 字數 370 閱讀 4397

此文僅作記錄【嫌放電腦裡礙事-_-

】,內容為以前收集的一小段**。

下面為pdf獲取文字的簡要**片段:

private string getpdftext(string filename)

其中對於舊版本,如pdfbox0.7.3版本,對於一些pdf解析會有問題,例如提示「unknown encoding for 『unigb-uc32-h』」。而將dll換成新的如pdfbox-1.8.2。就可避免此問題【此處本人是通過nuget新增的引用-pdfbox.1.1.1】。

至於想要其他新版本,可以自己通過pdfbox官網步驟自行生成

此技術後期很可能不會繼續深究(用到再說吧),僅作技術學習路上的留下的一點痕跡。

java進行pdf解析 pdfbox

對pdf解析有不少成熟技術,經過選型,我最後選定用pdfbox。前面那個flash上傳的是pdf,實際儲存到資料庫的也是pdf,但中間還有個過程 轉換為text文字,並抽取作者 時間 標題 之類的資訊進行索引 用的lucene 因為pdfbox原生提供了生成lucenedocument的類,所以不需...

pdfbox 2 0 8 解析pdf獲得文字內容

以前用的pdfbox 獲得pdf物件都是乙個fileinputstream搞定的。公升級到2.0.8版本後不能用了 由於才更新一兩個月,網上也沒有例項 就自己看了下 做個記錄 也就是把原來的流變成pdfbox裡面的randomaccessread 隨機讀寫流就可以了 param pdffilepat...

使用pdfbox實現pdf轉image

使用soffice的命令把pdf轉image的話,預設只能轉一頁的,這個有點費勁,於是也不打算沿用soffice的方案了,改用pdfbox來實現。org.apache.pdfbox pdfbox 2.0.4 org.apache.pdfbox pdfbox tools 2.0.4 public st...