baidu文庫爪巴蟲 txt

首先你應該清楚，直接從文件頁面源**中是找不到文件內容的，

為什麼說容易呢，引文包含內容的檔案通常都是比較大的！只要按檔案大小排序，往下找就能發現！

沒錯就是最大的那個檔案，裡面妥妥的是漢字

接下來就要分析一下請求的格式了，檢視 header 發現 get 引數一大堆

怎麼獲取這些引數呢？

最先想到的就是在文件頁面的源**中找啦

非常不巧的是，這些引數都能找到！

import requests
import re
url =
''html = requests.get(url)
.text
res = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"'
, html)
md5, sign = res[0]
res = re.findall(r'"show_doc_id":"(.*?)"'
, html)
txtid = res[0]
res = re.findall(r'"page":"(.*?)"'
, html)
rn = res[0]
res = re.findall(r'"rsign":"(.*?)"'
, html)
rsign = res[0]
u =""
.format
(    txtid,
md5,
sign,
rn,rsign
)print
(u)# 
new_html = requests.get(u)
.text
txt_list = re.findall(r'"c":"(.*?)"'
, new_html)
result =
''.join(
[item.encode(
'utf8'
).decode(
'unicode_escape'
,'ignore'
)for item in txt_list]
)print
(result)
'''說明：
1、以脂校本為準。【】中是引用的原文；（）中是我新增的說明；···是標記年表與文中矛盾之處。
2、為說明引用、表述，我採用了乙個紅樓紀年座標，以甄士隱夢中識通靈為座標起點，作為紅樓元年開始紀事。
3、推理的基礎是：寶玉在甄士隱夢見僧道那一年出生；釵、菱、襲、晴四人同庚。
4、文中時間順序本來就有矛盾之處，特別是62回至70，時間線索模糊不清，前後衝突之處甚多，我試了多種排序也不能完全與文字相符，勉強排了下來但明顯有錯，還請高人指點。
5、盡量把時間的結點都排列出來，所以叫囉嗦版。而且文字也很囉嗦，請忍耐。
...'''

九陰白骨爪

第一重金絲手訣曰面北背南朝天坐，氣行任督貫大椎。意聚丹田一柱香，分支左右聚掌心。開啟氣海命門穴，氣滿衝貫十指爪。旋入陰氣一坤爐，放收來回金絲手。凡習九陰白骨爪需先習九陰神功百日，於極陰之地，谷地為佳。面北背南，五心朝天坐於低處。雙手放於膝上，手心朝下，意守丹田。開氣海命門，旋轉吸入陰氣匯於丹田。...

Python爪巴表情包

明年要是還有類似的石光活動的話，學弟學妹們就可以直接拿來用了 import requests request 和 selenium 的區別 requests要求獲取的是靜態網頁 from bs4 import beautifulsoup 網頁解析 from pathlib import path 處...

三道baidu試題

1 簡述 n個空間，存放a到a n 1的數，位置隨機且數字不重，a為正且未知，現在第乙個空間的數被誤設定為 1。說明已經知道被修改的數不是最小的。例子 n 6，a 2，原始的串為5，3，7，6，2，4。現在被別人修改為 1，3，7，6，2，4。現在希望找到5。思路充分利用等差數列性質。法一開一...

baidu文庫爪巴蟲 txt

九陰白骨爪

Python爪巴表情包

三道baidu試題

相關推薦