判斷是不是「 出版年:」
//*[@id="info"]//span[@class="pl"]/text()
因為id="info"裡面的span有巢狀的span,所以:
2個//的含義: bookstore//book 選擇屬於 bookstore 元素後代的
所有book 元素,而
不管它們位於 bookstore 之下的
什麼位置
。譯者:劉姿君
有意義的都有屬性 class="pl"
來組合行內元素,以便通過樣式來格式化它們。
注釋:span 沒有固定的格式表現。當對它應用樣式時,它才會產生視覺上的變化。
如果不對 span 應用樣式,那麼 span 元素中的文字與其他文字不會任何視覺上的差異。
.xpath('string(.)')
可以取出當前節點下的所有文字內容(不包括標籤內部的)
提取出來的有空格,如何去除
strip()
把頭和尾的空格去掉
a.strip()
[u' 2008-9'] 'list' object has no attribute 'strip'
data truncated for column,這個可能是資料有空格什麼的,就是格式不對。可以用strip()處理下。
出版年:
2023年09月04日, 需要把year欄位的值的長度放大一些
爬取豆瓣讀書的書籍(一)
環境準備 python3 pycharm 2018.3.4 x64 google chrome瀏覽器 爬取豆瓣讀書書籍的基本步驟 1 在pycharm中匯入urllib模組的request 2 獲取豆瓣讀書網的url資訊和user agent 3 用urlopen開啟 並傳送請求 4 用urlret...
Python 爬蟲 抓取豆瓣讀書TOP250
coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...
Scrapy框架抓取豆瓣電影的小爬蟲學習日記(三)
獲取到影片資訊之後,下一步就是要把獲取到的資訊進行儲存了。網上很多的案例都是儲存成json格式,這裡我想用mysql伺服器來儲存。1 首先安裝好mysql資料庫,建好filminfo表和字段。2 在items.py檔案中新增你需要儲存到資料庫中的資訊,定義相對應的class,生成item類物件。cl...