豆瓣讀書分析

2021-08-20 10:22:51 字數 880 閱讀 6910

無聊的時候跑跑資料也是極好的

伏爾泰曾說「讀書使人心眼兒亮」 哦不 「讀書使人心明眼亮」

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-euoqaqbf-1589990121157)(

打廣告歡迎來踩個人部落格

[個人部落格]

記得手上有乙個豆瓣圖書的資料 然後沒事兒 就手癢拿來跑了跑

資料是從2023年開始

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-iklkstp3-1589990121160)(

可以看到整體從2023年之後開始書籍的數量開始指數型增長,而前期的書籍數量則幾乎沒有任何增長,然後在2023年之後數量開始銳減,下降的原因也許是資料的問題(即並未收集) 關於圖中前面的那個bug應該是資料清理的時候有點兒問題導致(lll¬ω¬)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-it2ks4eu-1589990121164)(

大部分的書籍的價位分布是在20-40之間,0-20的基本是一些電子書,超過100的大多數都是各種全集之類的譬如中國美術全集(60冊)

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-qffuirgm-1589990121167)(

應為布局問題只展示了前30的資料,不過還是很清楚的看到前四名分別是耳熟能詳的中信人名文學人民郵電機械工業

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-qdy1knr8-1589990121171)(

嗯~~~

其他的分析待更

豆瓣讀書 豆瓣電影

1.獲取豆瓣讀書頁資訊,為 如下 coding utf 8 import requests from lxml import etree 1.獲取豆瓣讀書網頁內容 headers url response requests.get url,headers headers text response....

豆瓣讀書isbn 查詢

停服了!在網上找了一圈,有意思了,isbn 國際標準書號 international standard book number 這種理論上應該公開的資訊卻沒有相關資源!號稱中國isbn中心 中國版本圖書館,這個 翻了一遍也沒有能夠查isbn的地方,不可思議!然後,鵝廠是這樣的 福廠是這樣的 其他廠是...

豆瓣讀書爬蟲(requests re)

前面整理了一些爬蟲的內容,今天寫乙個小小的栗子,內容不深,大佬請忽略。內容包括對豆瓣讀書 中的書籍的基本資訊進行爬取,並整理,便於我們快速了解每本書的中心。每當爬取某個網頁的資訊時,首先就是要進入到網頁中,看看有沒有什麼爬取過程中的限制,可以檢視 的robots協議。就是在原 的後面加上 robot...