python 學習 初入爬蟲

2021-10-19 11:11:02 字數 1375 閱讀 3449

1.爬取網頁內容

import urllib.request as ur

import chardet as ct

response=ur.urlopen("")

html=response.read()

result=ct.detect(html)['encoding']

html=html.decode(result)

print(html)

知識點:

urlib.request模組,可以用來請求訪問**

chadet模組可以用來,檢測編碼方式

ur.urlopen()函式,獲得 httprespone型別,用read()函式讀取內容

chadet,detect()函式,獲得 編碼方式和可信度

decoed(『解碼方式』)解碼

2.寫乙個程式,依次訪問檔案中指定的站點,並將每個站點返回的內容依次存放到不同的檔案中。

urls.txt檔案中的站點

test.py檔案,用於讀取 **內容 和編碼方式

return (html,result)主檔案中,將內容放在,相應檔案中

import test as t

def geturl():

with open(r"e:\urls\urls.txt",'r') as f:

for each in f:

each=each.strip('\n')

url,encode=t.getresult(each)

each='.'.join(['e:\\urls\\',each.split('.',2)[1],'txt'])

with open(each,'w',encoding=encode) as filewrite:

filewrite.write(url)

geturl()

ps:本來還有 豆瓣** 但是無法爬取,會報錯,不知道什麼原因。

知識點:

with語句 可以控制關閉檔案

.join([ ])函式,字元合併函式

strip() 函式,去除函式

元組返回引數,可以返回多個值

初入爬蟲學習之糗事百科爬蟲

url 請求的方式為get,所以對應選擇request的get方法 resp requests.get url resp就是響應結果 print resp 返回的碼為200,說明響應結果正常,200表示成功,418表示遇到反爬 print resp.request.headers 返回的頭部為乙個p...

初入python的感受

由於之前一直是使用c和c 語言來編寫 的,這次在高階程式設計技術課上接觸到python這門語言,我就被它的各種特性驚豔到了。之前只是略有耳聞使用python編寫程式很方便,省去了記憶體管理等等諸多不便,但只有在自己親身體會之後才真正感受到了python的魅力所在。比如python使用變數前不需要去定...

初入機器學習(2)

今天先大致講下機器學習的理論基礎,基礎術語和一些概念性的定 釋等。首先是基礎術語 1 資料集 data sets 是乙個記錄關於乙個事件或者物件的集合,也就是我們的所需要的資料的乙個集合,包括特徵 feature 或者屬性 attribute 等,當然如果是監督學校的話也包括標籤 label 2 特...