懶貓隨緣記 今天寫了個ip位址爬取的小爬蟲,菜。

2021-10-02 09:16:52 字數 1628 閱讀 3522

檔案的**如下:

import time

import random

from bs4 import beautifulsoup

import csv

import requests

import pandas as pd

from ip位址爬取策略_未完成.headers import get_user_agent

class

ipspider

:def

get_ip()

: header =

html = requests.get(

'',headers=header,proxies =

) soup = beautifulsoup(html.text,

"html.parser"

) time.sleep(random.randint(50,

120)

) ip_table = soup.find_all(

"tr"

) ip_list =

for i in

range(1

,len

(ip_table)):

ip = ip_table[i]

.find_all(

"td"

) first = ip[1]

.text +

':' second = first + ip[2]

.text

return ip_list

defwrite_ip

(ip_list)

: fo =

open

("ippool.csv"

,'w+'

, newline='')

filenames =

['ip'

] write_csv = csv.dictwriter(fo,fieldnames=filenames)

for x in

range

(len

(ip_list)):

write_csv.writerow(

) fo.close(

)def

read_ip()

: ip = pd.read_csv(

"ippool.csv"

,header=

none

) x = random.randint(0,

len(ip)

) result = ip.iloc[x]

.values[0]

return result

**分為三個方法:

爬取ip位址

將爬取的ip位址寫成csv

讀取已寫的csv檔案

其中的get_user_agent()是乙個user-agent的設定

**只爬取了第一頁,一般來說100個ip可以滿足需求

emmm,十分簡陋…我好菜…:)

願你我安好,世界和平。

今天寫了乙個呼叫儲存過程的方法

1 介面 呼叫儲存過程 param procname 儲存過程名.如 testprocparam mypack.testprocparam param inparams 輸入引數對映物件.格式為 索引號 值 param outtypes 輸出引數型別對映物件.格式為 索引號 型別 return ma...

今天心血來潮,寫了個python的小爬蟲

昨天晚上看看python,比較高興,今天照著教程寫了個小例子 主要用到了python中的正規表示式re和網路urllib2,下面我附上全部 其實downurl這個的功能是最核心的,應為整個爬蟲扒取網頁的主要功能就是由他實現的 coding utf 8 import urllib2 import re...

今天寫了乙個簡單的新浪新聞RSS操作類庫

類庫不是很複雜,主要兩個功能 二 指定頻道url的xml檔案來獲取新聞資訊。首先,我們寫兩個類,乙個用於儲存新聞個息,另乙個用於儲存頻道資訊。新聞記錄實體 serializable public class newsitem 新聞鏈結 public string link 作者 public str...