懶貓隨緣記今天寫了個ip位址爬取的小爬蟲，菜。

檔案的**如下：

import time
import random
from bs4 import beautifulsoup
import csv
import requests
import pandas as pd
from ip位址爬取策略_未完成.headers import get_user_agent
class
ipspider
:def
get_ip()
:        header =
html = requests.get(
'',headers=header,proxies =
)        soup = beautifulsoup(html.text,
"html.parser"
)        time.sleep(random.randint(50,
120)
)        ip_table = soup.find_all(
"tr"
)        ip_list =
for i in
range(1
,len
(ip_table)):
ip = ip_table[i]
.find_all(
"td"
)            first = ip[1]
.text +
':'            second = first + ip[2]
.text
return ip_list
defwrite_ip
(ip_list)
:        fo =
open
("ippool.csv"
,'w+'
, newline='')
filenames =
['ip'
]        write_csv = csv.dictwriter(fo,fieldnames=filenames)
for x in
range
(len
(ip_list)):
write_csv.writerow(
)        fo.close(
)def
read_ip()
:        ip = pd.read_csv(
"ippool.csv"
,header=
none
)        x = random.randint(0,
len(ip)
)        result = ip.iloc[x]
.values[0]
return result

**分為三個方法：

爬取ip位址將爬取的ip位址寫成csv

讀取已寫的csv檔案

其中的get_user_agent()是乙個user-agent的設定

**只爬取了第一頁，一般來說100個ip可以滿足需求

emmm，十分簡陋…我好菜…：）

願你我安好，世界和平。

今天寫了乙個呼叫儲存過程的方法

1 介面呼叫儲存過程 param procname 儲存過程名.如 testprocparam mypack.testprocparam param inparams 輸入引數對映物件.格式為索引號值 param outtypes 輸出引數型別對映物件.格式為索引號型別 return ma...

今天心血來潮，寫了個python的小爬蟲

昨天晚上看看python，比較高興，今天照著教程寫了個小例子主要用到了python中的正規表示式re和網路urllib2，下面我附上全部其實downurl這個的功能是最核心的，應為整個爬蟲扒取網頁的主要功能就是由他實現的 coding utf 8 import urllib2 import re...

今天寫了乙個簡單的新浪新聞RSS操作類庫

類庫不是很複雜，主要兩個功能二指定頻道url的xml檔案來獲取新聞資訊。首先，我們寫兩個類，乙個用於儲存新聞個息，另乙個用於儲存頻道資訊。新聞記錄實體 serializable public class newsitem 新聞鏈結 public string link 作者 public str...

懶貓隨緣記 今天寫了個ip位址爬取的小爬蟲，菜。

今天寫了乙個呼叫儲存過程的方法

今天心血來潮，寫了個python的小爬蟲

今天寫了乙個簡單的新浪新聞RSS操作類庫

相關推薦

懶貓隨緣記今天寫了個ip位址爬取的小爬蟲，菜。