python百度文庫文字提取 百度文庫文字爬取

2021-10-11 04:48:20 字數 1921 閱讀 6496

import requests

import re

import json

headers = # 模擬手機

def get_num(url):

response = requests.get(url, headers=headers).text

# print(response)

result = re.search(

r'&md5sum=(.*)&sign=(.*)&rtcs_flag=(.*)&rtcs_ver=(.*?)".*rsign":"(.*?)",', response, re.m | re.i) # 尋找引數

# print(result.group(1),result.group(2),result.group(3),result.group(4),result.group(5))

reader = ', response) # 獲取每頁的標籤

doc_url = "" + url[29:-5] # 網頁的字首

n = 0

for i in range(len(result_page)): # 最大同時一次爬取10頁

if i % 10 is 0:

doc_range = '_'.join([k for k, v in result_page[n:i]])

reader['pn'] = n + 1

reader['rn'] = 10

reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_10' % (

reader.get('pn'))

reader['range'] = doc_range

n = i

get_page(doc_url, reader)

else: # 剩餘不足10頁的

doc_range = '_'.join([k for k, v in result_page[n:i + 1]])

reader['pn'] = n + 1

reader['rn'] = i - n + 1

reader['callback'] = 'sf_edu_wenku_retype_doc_jsonp_%s_%s' % (

reader.get('pn'), reader.get('rn'))

reader['range'] = doc_range

get_page(doc_url, reader)

def get_page(url, data):

response = requests.get(url, headers=headers, params=data)

# print("response.status_code:",response.status_code,"\n","response.url:",response.url,"\n","response.headers:",response.headers,"\n","response.cookies:",response.cookies)

response = response.text

response = response.encode(

'utf-8').decode('unicode_escape') # unciode轉為utf-8 然後轉為中文

response = re.sub(r',"no_blank":true', '', response) # 清洗資料

result = re.findall(r'c":"(.*?)"}', response) # 尋找文字匹配

result = '\n'.join(result)

print(result)

if __name__ == '__main__':

url = "" #這裡寫入想要爬取的文章url,直接貼上進來

get_num(url)

爬取效果圖如下:

python怎麼百度文庫 《python》

字串 字串是 字元的序列 字串基本上就是一組單詞。使用單引號 你可以用單引號指示字串,就如同 quote me on this 這樣。所有的空白,即空格和 製表符都照原樣保留。使用雙引號 在雙引號中的字串與單引號中的字串的使用完全相同,例如 what s your name?使用三引號 或利用三引號...

百度文庫爬蟲

可用的page number 0 10 20 30 根據url和type爬取檔案類容 doc和txt檔案使用不同的爬取方法 爬取的結果儲存在txt outputs search word freefromwenku main.py 程式入口 readme.md read me requirement...

python百度文庫原始碼 Python原始碼剖析3

第頁共 頁作為python 中最簡單的物件,整數物件是研究 python 物件體系的乙個非常好的 切入點。直觀上 會認為整數物件的實現非常簡單,如果單純以整數物件而言,實現確實非常簡單。然而在 python 中,為了執行效率,實際上存在著乙個以緩 衝池為核心的整數 物件的體系結構,實際上,pytho...