首先你應該清楚,直接從文件頁面源**中是找不到文件內容的,
為什麼說容易呢,引文包含內容的檔案通常都是比較大的!只要按檔案大小排序,往下找就能發現!
沒錯就是最大的那個檔案,裡面妥妥的是漢字
接下來就要分析一下請求的格式了,檢視 header 發現 get 引數一大堆
怎麼獲取這些引數呢?
最先想到的就是在文件頁面的源**中找啦
非常不巧的是,這些引數都能找到!
import requests
import re
url =
''html = requests.get(url)
.text
res = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"'
, html)
md5, sign = res[0]
res = re.findall(r'"show_doc_id":"(.*?)"'
, html)
txtid = res[0]
res = re.findall(r'"page":"(.*?)"'
, html)
rn = res[0]
res = re.findall(r'"rsign":"(.*?)"'
, html)
rsign = res[0]
u =""
.format
( txtid,
md5,
sign,
rn,rsign
)print
(u)#
new_html = requests.get(u)
.text
txt_list = re.findall(r'"c":"(.*?)"'
, new_html)
result =
''.join(
[item.encode(
'utf8'
).decode(
'unicode_escape'
,'ignore'
)for item in txt_list]
)print
(result)
'''說明:
1、以脂校本為準。【】中是引用的原文;()中是我新增的說明;···是標記年表與文中矛盾之處。
2、為說明引用、表述,我採用了乙個紅樓紀年座標,以甄士隱夢中識通靈為座標起點,作為紅樓元年開始紀事。
3、推理的基礎是:寶玉在甄士隱夢見僧道那一年出生;釵、菱、襲、晴四人同庚。
4、文中時間順序本來就有矛盾之處,特別是62回至70,時間線索模糊不清,前後衝突之處甚多,我試了多種排序也不能完全與文字相符,勉強排了下來但明顯有錯,還請高人指點。
5、盡量把時間的結點都排列出來,所以叫囉嗦版。而且文字也很囉嗦,請忍耐。
...'''
九陰白骨爪
第一重金絲手訣曰 面北背南朝天坐,氣行任督貫大椎。意聚丹田一柱香,分支左右聚掌心。開啟氣海命門穴,氣滿衝貫十指爪。旋入陰氣一坤爐,放收來回金絲手。凡習九陰白骨爪需先習九陰神功百日,於極陰之地,谷地為佳。面北背南,五心朝天坐於低處。雙手放於膝上,手心朝下,意守丹田。開氣海 命門,旋轉吸入陰氣匯於丹田。...
Python爪巴表情包
明年要是還有類似的石光活動的話,學弟學妹們就可以直接拿來用了 import requests request 和 selenium 的區別 requests要求獲取的是靜態網頁 from bs4 import beautifulsoup 網頁解析 from pathlib import path 處...
三道baidu試題
1 簡述 n個空間,存放a到a n 1的數,位置隨機且數字不重,a為正且未知,現在第乙個空間的數被誤設定為 1。說明 已經知道被修改的數不是最小的。例子 n 6,a 2,原始的串為5,3,7,6,2,4。現在被別人修改為 1,3,7,6,2,4。現在希望找到5。思路 充分利用等差數列性質。法一 開一...