由於我也不是什麼專業人士,我也是在學習,這個就是我自己的乙個學習筆記,什麼爬蟲可以做什麼,為什麼學爬蟲我就不再贅述了,總結一點,爬蟲用來爬取網頁上的東西!
在python中用到urllib和urllib2,urllib是python原生的乙個庫,urllib2是python創始人覺得urllib不好使自己又做的。python3將兩個庫合成了乙個urllib庫,需要什麼東西基本就是從這個庫里拿。
我用的python3,用urllib庫
import urllib.***
接下來,是最基本的爬蟲。
解碼,前提是你得先把那串資料讀出來,這就要說到我們的第二個函式,read(),用於將bytes型別的資料讀出來,以便於decode()解碼。
接下來看**
import urllib.request
response=urllib.request.urllib("")
text=response.read().decode()
print(text)
爬到的是html的網頁,如果要提取什麼資訊,需要我們後期處理. Python爬蟲學習筆記一
爬蟲 網路蜘蛛,通俗講就是模擬瀏覽器。所需要的知識架構 關於基礎知識,隨便找本書就可以 urllib和urllib2是基本的爬蟲庫 正規表示式比較關鍵 框架比較高階,至於是什麼我現在也剛開始學習,一起交流。爬網頁,首先要了解瀏覽網頁是怎麼工作的?使用者輸入 之後,經過dns伺服器,找到伺服器主機,向...
Python爬蟲學習筆記 一
以爬取乙個租房 的每一頁的每乙個租房資訊為例。分別使用集合和列表在csv檔案中展示為例。程式設計中需注意的是 from bs4 import beautifulsoup import requests import pandas as pd import time headers def judge...
python爬蟲學習筆記
一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...