python 學習初入爬蟲

1.爬取網頁內容

import urllib.request as ur
import chardet as ct
response=ur.urlopen("")
html=response.read()
result=ct.detect(html)['encoding']
html=html.decode(result)
print(html)

知識點：

urlib.request模組，可以用來請求訪問**

chadet模組可以用來，檢測編碼方式

ur.urlopen()函式，獲得 httprespone型別，用read()函式讀取內容

chadet,detect()函式，獲得編碼方式和可信度

decoed(『解碼方式』)解碼

2.寫乙個程式，依次訪問檔案中指定的站點，並將每個站點返回的內容依次存放到不同的檔案中。

urls.txt檔案中的站點

test.py檔案，用於讀取 **內容和編碼方式

return (html,result)主檔案中，將內容放在，相應檔案中

import test as t
def geturl():
with open(r"e:\urls\urls.txt",'r') as f:
for each in f:
each=each.strip('\n')
url,encode=t.getresult(each)
each='.'.join(['e:\\urls\\',each.split('.',2)[1],'txt'])
with open(each,'w',encoding=encode) as filewrite:
filewrite.write(url)
geturl()

ps：本來還有豆瓣** 但是無法爬取，會報錯，不知道什麼原因。

知識點：

with語句可以控制關閉檔案

.join([ ])函式，字元合併函式

strip() 函式，去除函式

元組返回引數，可以返回多個值

初入爬蟲學習之糗事百科爬蟲

url 請求的方式為get，所以對應選擇request的get方法 resp requests.get url resp就是響應結果 print resp 返回的碼為200，說明響應結果正常，200表示成功，418表示遇到反爬 print resp.request.headers 返回的頭部為乙個p...

初入python的感受

由於之前一直是使用c和c 語言來編寫的，這次在高階程式設計技術課上接觸到python這門語言，我就被它的各種特性驚豔到了。之前只是略有耳聞使用python編寫程式很方便，省去了記憶體管理等等諸多不便，但只有在自己親身體會之後才真正感受到了python的魅力所在。比如python使用變數前不需要去定...

初入機器學習（2）

今天先大致講下機器學習的理論基礎，基礎術語和一些概念性的定釋等。首先是基礎術語 1 資料集 data sets 是乙個記錄關於乙個事件或者物件的集合，也就是我們的所需要的資料的乙個集合，包括特徵 feature 或者屬性 attribute 等，當然如果是監督學校的話也包括標籤 label 2 特...

python 學習 初入爬蟲

初入爬蟲學習之糗事百科爬蟲

初入python的感受

初入機器學習（2）

相關推薦

python 學習初入爬蟲