檔案的**如下:
import time
import random
from bs4 import beautifulsoup
import csv
import requests
import pandas as pd
from ip位址爬取策略_未完成.headers import get_user_agent
class
ipspider
:def
get_ip()
: header =
html = requests.get(
'',headers=header,proxies =
) soup = beautifulsoup(html.text,
"html.parser"
) time.sleep(random.randint(50,
120)
) ip_table = soup.find_all(
"tr"
) ip_list =
for i in
range(1
,len
(ip_table)):
ip = ip_table[i]
.find_all(
"td"
) first = ip[1]
.text +
':' second = first + ip[2]
.text
return ip_list
defwrite_ip
(ip_list)
: fo =
open
("ippool.csv"
,'w+'
, newline='')
filenames =
['ip'
] write_csv = csv.dictwriter(fo,fieldnames=filenames)
for x in
range
(len
(ip_list)):
write_csv.writerow(
) fo.close(
)def
read_ip()
: ip = pd.read_csv(
"ippool.csv"
,header=
none
) x = random.randint(0,
len(ip)
) result = ip.iloc[x]
.values[0]
return result
**分為三個方法:
爬取ip位址
將爬取的ip位址寫成csv
讀取已寫的csv檔案
其中的get_user_agent()是乙個user-agent的設定
**只爬取了第一頁,一般來說100個ip可以滿足需求
emmm,十分簡陋…我好菜…:)
願你我安好,世界和平。
今天寫了乙個呼叫儲存過程的方法
1 介面 呼叫儲存過程 param procname 儲存過程名.如 testprocparam mypack.testprocparam param inparams 輸入引數對映物件.格式為 索引號 值 param outtypes 輸出引數型別對映物件.格式為 索引號 型別 return ma...
今天心血來潮,寫了個python的小爬蟲
昨天晚上看看python,比較高興,今天照著教程寫了個小例子 主要用到了python中的正規表示式re和網路urllib2,下面我附上全部 其實downurl這個的功能是最核心的,應為整個爬蟲扒取網頁的主要功能就是由他實現的 coding utf 8 import urllib2 import re...
今天寫了乙個簡單的新浪新聞RSS操作類庫
類庫不是很複雜,主要兩個功能 二 指定頻道url的xml檔案來獲取新聞資訊。首先,我們寫兩個類,乙個用於儲存新聞個息,另乙個用於儲存頻道資訊。新聞記錄實體 serializable public class newsitem 新聞鏈結 public string link 作者 public str...