import docx
import os
import numpy as np
import pandas as pd
import re
path = r'd:\hard_way'
#定義word檔案路
doc = docx.document(path+
'\ceshi.docx'
)#讀入word文件
len(doc.paragraphs)
#段落數量
str_text =
for i in doc.paragraphs:
#只獲取每個段落的文字內容
#print(i.text)
print
(str_text)
english_text =
for i in str_text:
if re.search(r'[a-za-z]'
,i):
#對獲取的內容進行篩選,條件為是否包含英文備註的內容
#print(i)
'''這裡是個人需要提取帶字母的段落內容
'''tables = doc.tables #獲取所有**式內容
tab1 = tables[0]
#獲取其中乙個
defget_table
(table)
:'''
獲取word檔中 所有**內容
'''res =
for i in
range
(len
(table.rows)):
#遍歷**的所有行
data =
row_cell = table.rows[i]
.cells
#獲取行資訊的每一列對應單元格值
for cell in row_cell:
#對每乙個單元格值遍歷 新增至列表
#print(cell.text)
#構建列表巢狀的資料
return res
tb1 = get_table(tab1)
df = pd.dataframe(tb1[1:
],columns=res[0]
)print
(tb1)
df.head(
)lsts =
for table in tables:
table = get_table(table)
print
(len
(lsts)
)nlst =
for lst in lsts[::
2]:#步長為2 選取**操作,跳過不需要的
#print(lst)
'''這部分是為獲取部分**資料
'''lst03 =
for i in
range(0
,len
(nlst),3
):#每三個**
print
(len
(nlst[i:i+3]
))len(nlst)
下半部分,還在戳腦袋。就是怎樣把english_text 每乙個元素,設為tb1 每張excel表的標題。
還有同乙個excel中一次性寫入多個sheet,慚愧…
用oracle utl file包讀取資料寫入檔案
create or replace directory my dir as usr test create or replace function f exporttxt 傳入引數 i query in varchar2,i separator in varchar2,i dir in varcha...
HDFS讀取流程和寫流程
讀 1.客戶端或者使用者通過呼叫 filesystem 物件的 open 方法開啟需要讀取的檔案,這對 hdfs 來說是常見乙個分布式檔案系統的乙個讀取例項。2.filesystem 通過遠端協議呼叫 namenode 確定檔案的前幾個 block 的位置。對於每乙個 block,namenode ...
按鍵精靈 寫讀取文字和
構思架構 1.已經寫好做表 2.流程圖重點 讀取文字 例子 分隔符號,是 由自行愛好設定,例子 遊戲區 伺服器 帳號 密碼 下面在記事本例子內容,複製原碼可直接讀取,建立記事本檔名 帳號檔案,帳 字不要打錯,不是 賬 湖南區 7 123456 456123 北京區 6 777777 222222 1...