python爬蟲學習筆記（一）

由於我也不是什麼專業人士，我也是在學習，這個就是我自己的乙個學習筆記，什麼爬蟲可以做什麼，為什麼學爬蟲我就不再贅述了，總結一點，爬蟲用來爬取網頁上的東西！

在python中用到urllib和urllib2，urllib是python原生的乙個庫，urllib2是python創始人覺得urllib不好使自己又做的。python3將兩個庫合成了乙個urllib庫，需要什麼東西基本就是從這個庫里拿。

我用的python3，用urllib庫

import urllib.***

接下來，是最基本的爬蟲。

解碼，前提是你得先把那串資料讀出來，這就要說到我們的第二個函式，read(),用於將bytes型別的資料讀出來，以便於decode()解碼。

接下來看**

import urllib.request
response=urllib.request.urllib("")
text=response.read().decode()
print(text)

爬到的是html的網頁，如果要提取什麼資訊，需要我們後期處理.

Python爬蟲學習筆記一

爬蟲網路蜘蛛，通俗講就是模擬瀏覽器。所需要的知識架構關於基礎知識，隨便找本書就可以 urllib和urllib2是基本的爬蟲庫正規表示式比較關鍵框架比較高階，至於是什麼我現在也剛開始學習，一起交流。爬網頁，首先要了解瀏覽網頁是怎麼工作的？使用者輸入之後，經過dns伺服器，找到伺服器主機，向...

Python爬蟲學習筆記一

以爬取乙個租房的每一頁的每乙個租房資訊為例。分別使用集合和列表在csv檔案中展示為例。程式設計中需注意的是 from bs4 import beautifulsoup import requests import pandas as pd import time headers def judge...

python爬蟲學習筆記

一爬蟲思路對於一般的文章而言，思路如下 1.通過主頁url獲取主頁原始碼，從主頁原始碼中獲得標題鏈結如想要抓取知乎上的新聞，就獲得主頁上的新聞鏈結 2.繼續通過標題鏈結獲得標題原始碼，進而獲得標題中的內容。其中，當存在多頁時，先將每一頁都一樣的url寫下來，然後迴圈加入頁碼，具...

python爬蟲學習筆記（一）

Python爬蟲學習筆記一

Python爬蟲學習筆記 一

python爬蟲學習筆記

相關推薦

Python爬蟲學習筆記一