簡單爬蟲測試Python

簡單的乙個爬蟲python程式

獲取對應網頁上的漢字字典內容

使用python中的兩個庫：獲取http請求的庫（requests）和正規表示式的庫（re）

先通過獲取http請求的網頁源**，然後通過檢視想要爬蟲的內容在網頁源**中的位置結構，接著通過正規表示式去搜尋檢測，得到想要的內容。

重要的就是，如何寫出準確的正規表示式，獲取我們想要的內容進行準確匹配。

"""
author: mikchy
time: 2019/08/03
function: 用於簡單測試爬蟲，爬乙個網頁上的漢字，存為乙個list
"""# http請求的庫
import requests
# 正規表示式的庫
import re
# get，post等，獲取該網頁的源**（和直接網頁看源**一樣）
html_content = requests.get("")
# 想要和直接看網頁源**，將得到的網頁輸出text文字，就可以
# print(html_content.text)
messages = "你好呀"
# 為了獲取網頁源**上，想要的東西（指定位置之類的），就需要
# 正規表示式，用於獲取網頁源**文字中指定位置的，這個需要深入學習
# 我們發現這個例子中，要獲取的漢字，剛好是在下面結構中（一般在什麼位置，需要先**網頁源**，才能知道自己要爬蟲的東西在的地方）
reg = "href='/hans/(.*)' "
# 這個是，將網頁源**文字，匹配搜尋所有符合正規表示式要求的東西，返回為乙個list儲存
hans_list = re.findall(reg, html_content.text)
for message in messages:
for index, element in enumerate(hans_list):  # 這個是遍歷列表中所有下標及其對應位置元素
if message == element:
print(message)
print(index)
break

python爬蟲簡單 python爬蟲簡單版

學過python的帥哥都知道，爬蟲是python的非常好玩的東西，而且python自帶urllib urllib2 requests等的庫，為爬蟲的開發提供大大的方便。這次我要用urllib2，爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

簡單python爬蟲

一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址一段簡單的 python 爬蟲程式，用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...

Python簡單爬蟲

一.獲取整個頁面的資料 coding utf 8 import urllib defgethtml url page urllib.urlopen url html page.read return html html gethtml print html 二.篩選需要的資料利用正規表示式來獲取想...

簡單爬蟲測試Python

python爬蟲簡單 python爬蟲 簡單版

簡單python爬蟲

Python簡單爬蟲

相關推薦

python爬蟲簡單 python爬蟲簡單版