根據關鍵詞爬取豆瓣相關書籍資訊

2021-10-19 16:20:16 字數 1869 閱讀 9307

根據書的型別爬取相關資訊並且儲存至csv,這裡以『python』為例。

結果可以看到除了書名外,其他都有混雜,因為研究html不太徹底。得到的資料有點錯誤。

import sys

import time

import requests

import pandas as pd

import re

import csv

import numpy as np

from bs4 import beautifulsoup

book_tag="python"

pagenum=1

header=

book_list=

while true:

url=""+book_tag+"?start="+str(pagenum*20)

try:

response=requests.get(url,headers=header)

response.raise_for_status()

responsetext=response.text

except:

print("爬取資料失敗")

# with open('douban.txt','wb+') as f:

# f.write(responsetext.encode())

# f.close()

soup=beautifulsoup(responsetext,'html.parser')

list_soup=soup.find_all('li',class_='subject-item')

if list_soup==:

break

def has_title(tag):

return tag.has_attr('title')

for item in list_soup:

title_info=item.find(has_title).get_text().replace("\n","")

title_info=title_info.replace(" ","")

print(title_info)

book_info=item.find('div',class_="pub").string

book_info=book_info.strip().split("/")

try:

orgin_author=book_info[0]

except:

orgin_author="暫無"

try:

year_info=book_info[-2]

except:

year_info="暫無"

try:

public_info=book_info[-3]

except:

public_info="暫無"

if item.find('span',class_="rating_nums")!=none:

rank_point=item.find('span',class_="rating_nums").string

else:

rank_point="暫無"

print("目前爬取至%d頁"%pagenum)

pagenum+=1

book_df=pd.dataframe(book_list,columns=["書名","作者","出版年份","出版社","評分"])

第一次發csdn,小白還有很多不懂,希望自己能堅持呀!

關鍵詞與關鍵詞之間的相關度計算

在資訊理論中常用互資訊 mi,mutual information 來衡量兩個詞的相關度mi x,y log2p x,y p x p y mi越大,表示兩個詞之間的結合越緊密。當x,y關聯大時,mi x,y 大於0 當x與y關係弱時,mi x,y 等於0 當mi x,y 小於0時,x與y稱為 互補關...

關鍵詞與關鍵詞之間的相關度計算

在資訊理論中常用互資訊 mi,mutual information 來衡量兩個詞的相關度mi x,y log2p x,y p x p y mi越大,表示兩個詞之間的結合越緊密。當x,y關聯大時,mi x,y 大於0 當x與y關係弱時,mi x,y 等於0 當mi x,y 小於0時,x與y稱為 互補關...

用Python爬取指定關鍵詞的微博

目錄 前幾天學校乙個老師在做微博的輿情分析找我幫她搞乙個用關鍵字爬取微博的爬蟲,再加上最近很多讀者問志斌微博爬蟲的問題,今天志斌來跟大家分享一下。我們此次選擇的是從移動端來對微博進行爬取。移動端的反爬就是程式設計客棧資訊校驗反爬蟲的cookie反爬蟲,所以我們首先要登陸獲取cookie。登陸過後我們...