Python爬蟲(一) 資料清洗與提取

2021-10-02 16:34:18 字數 1158 閱讀 8570

re模組的使用

提取,匹配,替換

提取:findall()

匹配:match()

替換 :sub()

例子:

#sub("正規表示式",'替換的字元','需要替換的字元')

html=re.sub(

'\n',''

,html)

#findall("正規表示式","要替換的字元")

ret=re.findall(pattern_1,html)

#match("正規表示式","匹配的字元")

re.match(password_patter,pass1)

表示式描述/

根節點擊取或下級

//任意節點,不考慮位置

.當前節點

…當前節點的父節點

@選取屬性

*匹配任意節點

[nodename]

根據節點篩選

contains(@屬性,「包含的內容」)

模糊查詢

text()

文字內容

主要有4個方法:

dumps():用於將python物件轉換成json物件

loads(): 用於將json物件轉換成python物件

dump():用於將python物件轉換成json物件並儲存至本地

load():用於載入本地的json物件並轉換成python

例子:

import json

python_data=[,

]#dumps用於將python物件將json物件

json_data=json.dumps(python_data)

#loads 用於將json物件轉換成python物件

python_data=json.loads(json_data)

#dump 用於將python物件轉成json物件並儲存至本地

json.dump(pythton_data,

open

('json.txt'

,'w'))

#load 用於將本地的json文字物件載入出來並轉換成python物件

python_data2=json.load(

open

('json.txt'

))

Python基礎(一)資料型別與變數

人生苦短,我用python!這是我最早認識python這門語言時聽到對它的一句概括。從字面上來看言簡意賅,體現了python語言省時,省力的特點.但是 究竟有多麼簡便呢,哈哈,還是要親自學過之後才知道 現在專案也基本進入維護階段,就趁這段時間來學習一下python把 1,整數 python可以處理任...

python資料清洗與預處理實戰

髒資料可以理解為帶有不整潔程度的原始資料。原始資料的整潔程度由資料採集質量所決定。髒資料的表現形式五花八門,如若資料採集質量不過關,拿到的原始資料內容只有更差沒有最差。髒資料的表現形式包括 資料採集完後拿到的原始資料到建模前的資料 there is a long way to go.從資料分析的角度...

(一)資料與統計資料

如今最成功的管理者與決策者是那些能夠理解資訊並有效利用資訊的人,因而統計學在現實生活中顯得尤其重要。會計事務所在對客戶進行審計時要用到統計抽樣程式,財務顧問們在進行投資指導時也需要用到各種各樣的統計資訊,零售付款機的電子掃瞄器正蒐集各種市場調研用的資料,質量管理中也需要很多統計學的知識,經濟學家在對...