目標:從下面這個網頁抓取前10頁ip、埠、運營商、位址、最後檢測時間並存入mysql資料庫
#匯入需要使用到的模組
class
huoqu():
#讀入資料
def__init__
(self):
self.num=1
for i in range(10):
#獲取網頁資訊
response = requests.get('
'%i)
self.html =response.text
#print(html)
#是乙個字串
#提取資訊
self.ip = re.compile(r'
.*?(.*?).*?(.*?).*?(.*?).*?(.*?).*?(.*?).*?
',re.s)
self.res =re.findall(self.ip,self.html)
self.dbutil(self.res)
defdbutil(self,res):
#建立資料庫連線
self.db=pymysql.connect('
localhost
','root
','root
','python_an')
#獲取游標物件
self.cursor =self.db.cursor()
for ip_ in
self.res:
self.num+=1
#插入資料語句
query = """
insert into catering_sale (num,ip,port,geographical,perators,final_detection) values (%s,%s,%s,%s,%s,%s)
"""#去\t \n操作
values = (self.num,ip_[0].replace('
\n', '').replace('
\t', ''),ip_[1].replace('
\n', '').replace('
\t', ''),ip_[2].replace('
\n', '').replace('
\t', ''),ip_[3].replace('
\n', '').replace('
\t', ''),ip_[4].replace('
\n', '').replace('
\t', ''
)) self.cursor.execute(query,values)
#關閉游標,提交,關閉資料庫連線
#如果沒有這些關閉操作,執行後在資料庫中檢視不到資料
self.cursor.close()
self.db.commit()
self.db.close()
if__name__=='
__main__':
huoqu=huoqu()
huoqu.
__init__
.*?101.4.136.34(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?(.*?)
.*?對應原始碼:
8080
北京市教育網
2019/08/05 17:30:08
資料庫:
測試結果:
python爬蟲抓取資訊 urllib
自己晚上寫的 本來抓取的是匯率 沒寫完 唉 路還長 繼續走 import requests import urllib.request import urllib.request import re import datetime def get headers 定義請求頭 換著請求頭進行爬取 he...
python 爬蟲實現網頁資訊抓取
首先實現關於網頁解析 讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re def test f urllib.urlopen while true firstline f.readline print firstline 我們大概要做幾件事...
php 抓取網頁資訊
最近要抓取網頁資料,就用php試了下,發現了乙個不錯的php抓取資料的整合類 html dom.php,而根據網頁的特點大致分為兩類,一類是網頁dom結構相同,url類似只是改了部分引數,這個 直接用 html file get html url 然後根據網頁dom用 html find plain...