爬蟲初體驗，解析網頁Table

閒來無事，學了點python，然後就開始想些點小爬蟲，python這種語言喜歡輪子，來減少一些消耗，可是自己總是跨不過這個坎總覺得接受不了（總之就是有點菜），所以寫來記錄一下

爬取**：的table

工具：requests（用來請求，爬取網頁），beautifulsoup4（解析網頁），pandas（資料處理）

1、先將要使用得輪子匯入：

import requests
from bs4 import beautifulsoup
from pandas import dataframe

2、get_info()函式：

def
get_info
():    flag = list()
info = list()
url = ""
r = requests.get(url)
#print(r.encoding)
soup = beautifulsoup(r.text, 'html5lib')
for td in soup.select("tbody tr td"):
#print(td.text)
#因為爬下來最前面出現三個空字串，清除
if len(td.text) != 0:
#如果list：flag有12個元素就清除
if len(flag) == 12:
#print(i)
#print(flag)
# df = dataframe(flag)
# print(df)
del flag[:]
#將二維陣列轉化為dataframe資料
df = dataframe(info)
# print(df)
df.to_csv("df.csv")

1、嘗試獲取某個網頁使用requests.get()方法，會返回乙個response物件, 通過r.text可以獲取到網頁，此外通過r.encoding獲取網頁的編碼，這個是重點，因為編碼問題真的傷人，我所爬取的網頁的編碼為「utf-8」

2、

soup = beautifulsoup(r.text, 'html5lib')

html5lib是一種解析器，還有其他解析器詳見beautifulsoup文件

3、

for td in soup.select("tbody tr td"):
#print(td.text)
#因為爬下來最前面出現三個空字串，清除
if len(td.text) != 0:
#如果list：flag有12個元素就清除
記錄一下過程，寫這個程式功力不足，遇到了很多問題：編碼，對for….in…迴圈的理解，以及list切片的理解，網頁的解析，資料的處理
				爬蟲利器初體驗
scrapy 資料流 scrapy 元件 爬取豆瓣電影 top250 前言為什麼要學 scrapy 呢?看下圖，就清楚了。很多招聘要求都有 scrapy，主要是因為 scrapy 確實很強。那到底強在 呢?請在文中找答案。scrapy 資料流 首先我們先來學習一下 scrapy 的工作流程。scra...
				scrapy之爬蟲初體驗
本篇文章主要將怎樣建立乙個scrapy專案，以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組，有很多原因都能導致scrapy模組安裝失敗，網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...
				Python爬蟲之初體驗
python爬蟲，一般用於抓取特定的內容，最近想學學，通過網路抓取自己想要的內容，於是乎學習了一下python，用乙個小案例來紀念一下學習的成果。coding utf 8 import urllib import re 定義個函式 抓取網頁內容 def gethtml url webpage url...

爬蟲初體驗，解析網頁Table

爬蟲利器初體驗

scrapy之爬蟲初體驗

Python爬蟲之初體驗

相關推薦