pdfminer 是乙個 python 的 pdf 解析器,可以從 pdf 文件中提取資訊。與其他 pdf 相關的工具不同,它側重的是獲取和分析文字資料。pdfminer 允許獲取某一頁中文字的準確位置和一些諸如字型、行數的資訊。它包括乙個 pdf 轉換器,可以把 pdf 檔案轉換成 html 等格式。還有乙個擴充套件的 pdf 解析器,可以用於除文字分析以外的其他用途。
特性完全用 python 編寫
解析、分析和轉換 pdf 文件
pdf-1.7 規範支援
cjk 語言和垂直書寫指令碼支援
支援各種字型型別(type1、truetype、type3 和 cid)
基本加密(rc4)支援
大綱(toc)提取
標記內容提取
自動布局分析
pdfminer 內建兩個工具:pdf2txt.py 和 dumppdf.py:
pdf2txt.py 從 pdf 檔案中提取所有文字內容。但不能識別畫成的文字,這需要特徵識別。對於加密的 pdf 你需要提供乙個密碼才能解析,對於沒有提取許可權的 pdf 文件你得不到任何文字。
dumppdf.py 把 pdf 檔案內容變成 pseudo-xml 格式。這個程式主要用於 debug ,但是它也可能用於提取一些有意義的內容(比如)。
將execl轉換成pdf檔案
上次將execl匯出到指定模板中後,需求又出更改,哎.廢話不多說。使用的wind的 adobereader 因此需要新增引用 1 2 把excel檔案轉換成pdf格式檔案 3 4 原始檔路徑 5 目標檔案路徑 6 true 轉換成功 7public bool xlsconverttopdf stri...
將html檔案轉換成jsp檔案
1 新建乙個web工程,把已經寫好的xx.html文件貼上在工程的webroot資料夾下 2 在開啟方式中選擇 myeclipse jsp editor 開啟xx.html檔案,在文件中新增首行 page pageencoding utf 8 contenttype text html charse...
怎麼自動將pdf檔案轉換成word
pdf轉換成word轉換器 將pdf文件轉換成word檔案。迅捷pdf轉換器是一款功能強大好用的pdf檔案轉換成word檔案的軟體,介面簡單,功能穩定,支援批量轉換,操作起來非常方便,完美支援將 pdf文件轉成word文件,使用pdf轉word無需安裝adobe acrobat,acrobat re...