python下wordpdf轉換總結

2021-08-15 19:49:25 字數 961 閱讀 9402



近期涉及到了關於

doc文件讀取的處理,也查了很久,為了便於大家使用,故集大成一下。

doc文件讀取有如下幾種:1、從

doc讀取文字

目前沒有找到直接的方式,一般是先轉為

docx

檔案在處理。所使用工具為

doc2doc(

批量時可用

),或人工另存處理。2、從

docx

讀取文字

一般使用

python-docx

庫的方法,但只支援建立新文件和讀取一些基本的檔案資料,如檔案大小和檔案標題,不支援正文讀取。

或直接從

docx

中讀取xml

的方法。3、從

pdf讀取文字

一般使用

pdfminer3k

庫或pypdf

庫。其中

pypdf

用起來其實稍顯麻煩,很多操作不夠方便。

pdfminer

對**不友好,也可以將

pdf

轉換為text

文字,還可以轉換為

html

等帶有標籤的文字。

還有一種可以用

pdf2htmlex(

非python)

,先把pdf

轉html

,接下來再用

bs4來解析處理。這樣的好處是處理

html

的工具非常非常豐富,且

pdf2htmlex

對原頁面的效果保持得特別好,特別是對於那些個用

word

和latex

匯出的pdf

裡,大量資料圖表裡的標籤可以很方便地提取所需的值。4、把

pdf中圖存為

jpg檔案

一般可以使用

pythonmagick

庫。以上的**處理,均在

Window下python轉exe工具

pip install pyinstaller pip install pypiwin32 upx壓縮工具 可不必,只是減少exe體積 放入python安裝目錄 pyinstaller f w i i.ico test.pyw f 生成乙個檔案 d 生成乙個目錄 預設 k 包含tcl tk d de...

python轉c C 轉Python計畫

1 學習python語法,完成python cookbook上的 目標 熟悉python語法和開發習慣,以及除錯方法。2 學習使用django框架,完成乙個基於django框架的專案,發布到github上。3 有時間閱讀一下django原始碼,了解其mvc框架的實現原理和orm的方法。4 pytho...

python實現轉置矩陣 用Python轉置矩陣?

轉置矩陣意味著我們將其列變為行。讓我們通過乙個例子來理解它,如果轉置後看起來像什麼。假設您有原始矩陣,例如 x 1,2 3,4 5,6 在上面的矩陣 x 中,我們有兩列,分別為1 3 5和2 4 6。因此,當我們在矩陣 x 上方轉置時,列變為行。因此,上面矩陣的轉置版本看起來像 x1 1,3,5 2...