今天主要學習了python爬蟲抓取網頁文字,首先用到的是乙個xpath的方法,當然他需要python庫的支援,需要匯入下圖這三個庫:
from lxml import etreeimport re
import requests
同時記錄一下踩到的坑:
一:re.sub(r'\u3000','',text[0])這個函式是替換的意思,將\u3000轉化為空格,在text[0]這個文字中
二:text[0].split("河北省", 1)[0])這個函式的意思分割的意思,分割text[0]文字中河北省這三個字之前的內容,當最後的數字為1時,分割的就是後邊的文字的意思
三:re.findall(r"(.+?日)", text[0])這個函式的意思時查詢,查詢text[0]文字中日字前邊的文字,結果包含日字。
四:len(mid.split("其中", 1)) 這個函式的意思是查詢是否有文字,檢測mid文字中其中兩個字後邊是否還有文字,如果有返回值會是文字的長度(具體長度我還不會算),如果沒有會返回0吧。
python學習 第十四天
在下這廂有禮了 python正規表示式 python通過re模組提供對正規表示式的支援。使用re的一般步驟是先將正規表示式的字串形式編譯為pattern例項,然後使用pattern例項處理文字並獲得匹配結果 乙個match例項 最後使match例項獲得資訊,進行其他的操作。encoding utf ...
linuxC學習第十四天
1 int佔4個位元組,對於int型它能寫入的整數不能超過10個不然編譯就會出錯。在編寫通訊錄一類要超過10個數個的程式時,可以使用long long long long 佔8個位元組,而long可能4個位元組,可能8個位元組。2 在寫函式時,一定要注意形參列表的檢測。如果沒有這一步,一旦有使用者輸...
學習python 第十四天
python 傳送電子郵件 訪問 http協議,傳送郵件要使用smtp。smtp mail transfer protocol 即簡單郵件傳輸協議,它是一組用於由源位址到目的位址傳送郵件的規則,由它來控制信件的中轉方式。python的smtplib提供了一種很方便的途徑傳送電子郵件。它對smtp協議...