第一天
1、python 安裝
選擇python 3.8.10 公司的電腦win7 家裡的 win11
2、安裝 pycharm
3、讀取word文件資料
1)安裝python-docx包
開發環境提示沒找到包 no module named 'docx'
首先確定python-docx包安裝成功,依賴包lxml也有。
命令列裡面正常可用,問題出在pycharm
定位問題後,重新度娘 在pycharm中使用第三方包,要用pycharm自帶導包工具
開啟pycharm->file->settings->
python-docx 文件
至此,已經可以簡單通過python簡單讀取和寫入word文件資訊。今天主要是環境搭建,比較簡單。安裝python-docx包時遇到一點小問題,剛開始用 no module named 'docx' 提示找解決方案一直沒找到合適的。重新定位問題問題解決。
下一步根據python-docx 文件和其他資料,詳細了解一下python-docx 文件的資料結構。
身份證資訊提取 1
目前專案在做的乙個身份證資訊提取的api,目前的思路如下 1.利用opencv過濾出身份證上的有用資訊 1 姓名 2 性別 3 民族 4 住址 5 身份證 2.通過opencv的方法定位有用的內容摳出來 3.利用深度學習的方法識別文字並提取出來整合。目前先做第一步,身份證上有兩種顏色的字,藍色和黑色...
Python網路爬蟲與資訊提取Day1
python網路爬蟲與資訊提取 一 導學 掌握定向網路資料爬取和網頁解析的基本能力 1 requests庫 自動爬取html頁面,自動向網路提交請求 2 robots.txt 網路爬蟲排除標準 3 beautiful soup庫 解析html頁面 4 projects 實戰專案a b 5 re庫 正...
python網路爬蟲(四) 資訊標記與資訊提取
方式 說明應用領域 xml最早的通用資訊標記語言,可擴充套件性好,但繁瑣 internet上資訊的互動與傳遞 json 資訊有型別,適合程式處理 js 比xml簡潔 移動應用雲端和節點的資訊通訊,無注釋 yaml 資訊無型別,文字資訊比例最高,可讀性好 各類系統的配置檔案,有注釋易讀 二.資訊提取的...