利用python網路爬蟲爬取學校官網十條標題
案例**:
#效果:__author : "j"
#date : 2018-03-06
#匯入需要用到的庫檔案
import
urllib.request
import
reimport
pymysql
#建立乙個類用於獲取學校官網的十條標題
class
getnewstitle:
#建構函式 初始化
def__init__
(self):
self.request = urllib.request.request("
") #
需要爬取的**
#利用正規表示式篩選資料
self.my_re =re.compile(
r'學校要聞.*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'"a2" >(.*?).*?
' +r
'院部簡訊')
#建立乙個方法
defget_html(self):
try:
response =urllib.request.urlopen(self.request)
#獲取目標網頁原始碼
#建立乙個函式,利用正則獲取指定標題
defget_titles(self, my_html):
news_titles =re.findall(self.my_re, my_html)
return
news_titles
#建立乙個方法,把獲取到的標題存入mysql資料庫
definto_mysql(self, titles):
for num in range(10):
connection = pymysql.connect(host='
127.0.0.1
', port=3306, user='
root
', password='******
', db='
school',
charset='
utf8')
cursor =connection.cursor()
sql = "
insert into `newstitles` (`title`) values ('
" + titles[0][num] + "')"
cursor.execute(sql)
connection.commit()
cursor.close()
connection.close()
#執行函式的入口
defstart(self):
self.into_mysql(self.get_titles(self.get_html()))
print("
儲存成功!")
#例項化類
s =getnewstitle()
#呼叫方法開始執行
s.start()
Python 網路爬蟲 爬取表情包
import requests import os import urllib.parse from bs4 import beautifulsoup 函式 判斷表情包是不是0個 def is zero url test requests.get url msg test.content s bea...
python爬蟲爬取網路小說
首先,獲取html頁面並解析,為方便儲存和使用頁面的encoding,直接使用全域性變數 章節名章節名 章節名.從結構可以看出,可以先獲取目錄的頂層標籤 class box 的標籤 然後再獲取該標籤內所有的li標籤即可。由於頁面內有其他的class box 的標籤,因此本次使用soup.find s...
Python爬蟲爬取網路小說
太古神王 txt a encoding utf 8 errors ignore i 1while i 2062 single web web file.readline replace n url single web print url header data requests.get url u...