baidu文庫爪巴蟲 txt

2021-10-24 06:06:18 字數 1582 閱讀 1358

首先你應該清楚,直接從文件頁面源**中是找不到文件內容的,

為什麼說容易呢,引文包含內容的檔案通常都是比較大的!只要按檔案大小排序,往下找就能發現!

沒錯就是最大的那個檔案,裡面妥妥的是漢字

接下來就要分析一下請求的格式了,檢視 header 發現 get 引數一大堆

怎麼獲取這些引數呢?

最先想到的就是在文件頁面的源**中找啦

非常不巧的是,這些引數都能找到!

import requests

import re

url =

''html = requests.get(url)

.text

res = re.findall(r'"md5sum":"&md5sum=(.*?)&sign=(.*?)"'

, html)

md5, sign = res[0]

res = re.findall(r'"show_doc_id":"(.*?)"'

, html)

txtid = res[0]

res = re.findall(r'"page":"(.*?)"'

, html)

rn = res[0]

res = re.findall(r'"rsign":"(.*?)"'

, html)

rsign = res[0]

u =""

.format

( txtid,

md5,

sign,

rn,rsign

)print

(u)#

new_html = requests.get(u)

.text

txt_list = re.findall(r'"c":"(.*?)"'

, new_html)

result =

''.join(

[item.encode(

'utf8'

).decode(

'unicode_escape'

,'ignore'

)for item in txt_list]

)print

(result)

'''說明:

1、以脂校本為準。【】中是引用的原文;()中是我新增的說明;···是標記年表與文中矛盾之處。

2、為說明引用、表述,我採用了乙個紅樓紀年座標,以甄士隱夢中識通靈為座標起點,作為紅樓元年開始紀事。

3、推理的基礎是:寶玉在甄士隱夢見僧道那一年出生;釵、菱、襲、晴四人同庚。

4、文中時間順序本來就有矛盾之處,特別是62回至70,時間線索模糊不清,前後衝突之處甚多,我試了多種排序也不能完全與文字相符,勉強排了下來但明顯有錯,還請高人指點。

5、盡量把時間的結點都排列出來,所以叫囉嗦版。而且文字也很囉嗦,請忍耐。

...'''

九陰白骨爪

第一重金絲手訣曰 面北背南朝天坐,氣行任督貫大椎。意聚丹田一柱香,分支左右聚掌心。開啟氣海命門穴,氣滿衝貫十指爪。旋入陰氣一坤爐,放收來回金絲手。凡習九陰白骨爪需先習九陰神功百日,於極陰之地,谷地為佳。面北背南,五心朝天坐於低處。雙手放於膝上,手心朝下,意守丹田。開氣海 命門,旋轉吸入陰氣匯於丹田。...

Python爪巴表情包

明年要是還有類似的石光活動的話,學弟學妹們就可以直接拿來用了 import requests request 和 selenium 的區別 requests要求獲取的是靜態網頁 from bs4 import beautifulsoup 網頁解析 from pathlib import path 處...

三道baidu試題

1 簡述 n個空間,存放a到a n 1的數,位置隨機且數字不重,a為正且未知,現在第乙個空間的數被誤設定為 1。說明 已經知道被修改的數不是最小的。例子 n 6,a 2,原始的串為5,3,7,6,2,4。現在被別人修改為 1,3,7,6,2,4。現在希望找到5。思路 充分利用等差數列性質。法一 開一...