# -*- coding: utf-8 -*-
import requests
import re
『』』
(『j-dub』, 『小吧主』, 『13』, 『有的人天之驕子,從選秀便是球隊核心有的人甘作綠葉,一心一意幹好自己的事有的人能力有限,最後只能被聯盟淘汰而有的人
雖有天賦,但是球隊的處境讓他無法讓他的天賦得到兌現,而他們可能在離開球隊後,便得到突猛進的發展,可能在同位置球員離開後成為球隊老大。今天樓主就來和大家談談那些從角色球員最終成為球隊老大的球員。』, 『來自』, 『iphone客戶端』, 『1樓』, 『2016-05-17 19:22』)
url = ''
html = requests.get(url).content
rs = re.findall(re.compile(r'(.*?).*?(.*?)
.*?lv">(.*?)
.*?(.*?).*?(.*?)(.*?).*?(.*?)(.*?)',re.s), html)
pattern = re.compile(r'(.*?)')
tz_rs = re.search(pattern, html)
tz_name = tz_rs.group(1)
file_name = tz_name+'.txt'
file_handle = open(file_name.decode('utf-8'),'w')
for floor in rs:
name = floor[0]
# 去除name中的img標籤
replace_img = re.compile(r'')
name = re.sub(replace_img, '-', name)
# 取出頭銜
rank = floor[1]
# 取出等級
level = floor[2]
# 把內容中的
替換為\n
content = floor[3].replace('
','\n')
# 把內容中的標籤全部剔除,並且去除空格
strip_ele = re.compile(r'<.*?>',re.s)
content = re.sub(strip_ele, '', content).strip()
# 取出來自客戶端...
from_device = floor[4]+floor[5]
if 'tail' in from_device:
# 取出樓層的正則
floor_pat = re.compile('\w+樓')
rs = re.search(floor_pat, from_device)
floor_num = rs.group()
# 取出日期的正則
datetime_pat = re.compile('(.*?)')
rs = re.search(datetime_pat, from_device)
datetime = rs.group(1)
from_device = '來自pc電腦版'
else:
# 取出樓層
floor_num = floor[6]
# 取出日期
datetime = floor[7]
# 寫入
file_handle.write('層主姓名:%s 等級:%s 頭銜:%s\n'%(name, level, rank))
file_handle.write(content)
file_handle.write('\n')
file_handle.write('%s 樓層:%s 日期:%s\n'%(from_device, floor_num, datetime))
file_handle.write('****************************************\n')
file_handle.close()
qt爬取網頁資訊 簡單幾步完成網頁資訊爬取
什麼是爬蟲 2.爬蟲能幹些什麼 爬蟲能夠做到哪些應用,上面已經提到一點是可以批量爬取網頁的資料資訊,並用於後續業務研究 爬蟲還可以爬取深層次的使用者個人資訊 恭喜你,到這一步就離查水表不遠了 個人理解淺薄請大家補充 3.爬蟲幾大步驟 網頁資料爬蟲 python 3.1 導包 3.2 請求資料 請求資...
安居客資訊爬取
本篇是我第一次利用bs寫的爬蟲 爬取 每頁的 變數是p後的數字,可能因為這是老早之前寫的 了,所以現在一看,發現並沒有什麼難的,掌握基本要素即可。廢話不多說,直接上 吧!encoding utf8 import re import urllib import urllib2 from bs4 imp...
Python 爬取網頁資訊
對於本次學習爬蟲中的一些總結 1.要熟練掌握基礎知識,包括一些基礎的語法 2.正規表示式的正確使用,建議學習北理工的python爬蟲課程 3.先寫大框架再新增小的功能解析 4.對程式異常處理要熟練,盡量使用try.excep結構 5.對於列表字串資料的基本使用到位,比如增刪改查等 6.思路必須清晰 ...