1.爬取網頁內容
import urllib.request as ur
import chardet as ct
response=ur.urlopen("")
html=response.read()
result=ct.detect(html)['encoding']
html=html.decode(result)
print(html)
知識點:
urlib.request模組,可以用來請求訪問**
chadet模組可以用來,檢測編碼方式
ur.urlopen()函式,獲得 httprespone型別,用read()函式讀取內容
chadet,detect()函式,獲得 編碼方式和可信度
decoed(『解碼方式』)解碼
2.寫乙個程式,依次訪問檔案中指定的站點,並將每個站點返回的內容依次存放到不同的檔案中。
urls.txt檔案中的站點
test.py檔案,用於讀取 **內容 和編碼方式
return (html,result)主檔案中,將內容放在,相應檔案中
import test as t
def geturl():
with open(r"e:\urls\urls.txt",'r') as f:
for each in f:
each=each.strip('\n')
url,encode=t.getresult(each)
each='.'.join(['e:\\urls\\',each.split('.',2)[1],'txt'])
with open(each,'w',encoding=encode) as filewrite:
filewrite.write(url)
geturl()
ps:本來還有 豆瓣** 但是無法爬取,會報錯,不知道什麼原因。
知識點:
with語句 可以控制關閉檔案
.join([ ])函式,字元合併函式
strip() 函式,去除函式
元組返回引數,可以返回多個值
初入爬蟲學習之糗事百科爬蟲
url 請求的方式為get,所以對應選擇request的get方法 resp requests.get url resp就是響應結果 print resp 返回的碼為200,說明響應結果正常,200表示成功,418表示遇到反爬 print resp.request.headers 返回的頭部為乙個p...
初入python的感受
由於之前一直是使用c和c 語言來編寫 的,這次在高階程式設計技術課上接觸到python這門語言,我就被它的各種特性驚豔到了。之前只是略有耳聞使用python編寫程式很方便,省去了記憶體管理等等諸多不便,但只有在自己親身體會之後才真正感受到了python的魅力所在。比如python使用變數前不需要去定...
初入機器學習(2)
今天先大致講下機器學習的理論基礎,基礎術語和一些概念性的定 釋等。首先是基礎術語 1 資料集 data sets 是乙個記錄關於乙個事件或者物件的集合,也就是我們的所需要的資料的乙個集合,包括特徵 feature 或者屬性 attribute 等,當然如果是監督學校的話也包括標籤 label 2 特...