1.從a標籤下獲取內容,是string
#角色
'''主演:
張譯黃景瑜海清
'''actors=li.find('p',attrs='pactor')
act=''
for actor in actors:
act+=actor.string+' '
2.從標籤下獲取內容,是text
#介紹
'''簡介:作為遠達建築公司的副總監楊維(王健飾),
工作上處處受到上級和同事的打壓,家庭中妻子(王妍飾)對其也不尊重。各種的壓迫下,導致楊維走上歧途。
將周燕(呂小漫飾)、白亞楠(徐藝涵飾)、沈美玲(劉雨晴飾)分別抓到自己的地窖中,將其虐待......地窖外面
,三位女性的親人苦苦尋找,白亞楠的父親白景山(梁岩飾)和周燕...
展開全部
'''instroture=li.find('p',attrs=).text
print (instroture)
3.
python爬蟲報錯 attributeerror: 'nonetype' object has no attribute 'text',這是
time=li.find('span',attrs=).text,整個html中沒有span 這種型別
這種情況下try except,說明情況即可:
try:
time=li.find('span',attrs=).text
print (time)
except:
print ('還沒上映')
4.python的路徑問題requests.exceptions.missingschema: invalid url '': no schema supplied. perhaps you meant http:imgwx2.2345.com/dypcimg/img/8/65/sup196226_223x310.jpg?1525231260?
將路徑前加上『http:』
5.獲取span標籤下的a標籤下的內容:
#獲取影片的名字
'''媽媽咪鴨
'''name=li.find('span',attrs=).a.text
#print (name)
6.這個問題真的是需要初學者注意,因為沒有系統的學習,很多問題只能是自己去碰
首先獲取物件的方法是soup.find('標籤','屬性')
獲取的集合方法是soup.find_all('標籤','屬性')
當我們獲取物件時:ul=soup.find('ul',attrs=)
我們是可以遍歷的:for li in ul:
#print (li)
name=li.find('a',attrs=).text
print (name)
但是這時就會報錯:name=li.find('a',attrs=).text
typeerror: find() takes no keyword arguments
但是html中確實是有的!!!
怎樣解決呢??? 這裡就是要提到find_all這個方法了,只有find_all獲取的方法,才能遍歷從中獲取資料!!!!
這樣:
#獲取物件
ul=soup.find('ul',attrs=)
#獲取集合
li_list=ul.find_all('li',attrs=)
for li in li_list:
#print (li)
name=li.find('a',attrs=).text
print (name)
這樣就能獲取到了
7.按屬性查詢,和直接查詢
+0.658
我們這樣查詢不到!!
time=li.find('h3',attrs=).text
這有一層一層的屬性查詢
sco=li.find('div',attrs=).h3.text
python 爬蟲的注意事項
報錯1.selenium庫的使用 selenium.common.exceptions.webdriverexception message unknown error cannot find chrome binary 有兩種可能 沒有chromedriver 沒有找到chrome 對於第一種 用...
python中若干注意點
1 print語句呼叫str 函式顯示物件,互動式直譯器則呼叫repr 函式顯示物件。2 控制台輸入 表示最後乙個表示式的值。3 print語句支援將輸出重定向到檔案。4 python不支援c語言中的自增1和自減1運算子,這是因為 和 也是單目運算子,python會將 n解釋為 n 從而得到n,同樣...
Python一點注意
pickle模組中的兩個主要函式是dump 和load dump 函式接受乙個檔案控制代碼和乙個資料物件作為引數,把資料物件以特定的格式儲存到給定的檔案中。當我們使用load 函式從檔案中取出已儲存的物件時,pickle知道如何恢復這些物件到它們本來的格式。這兩個函式均能接收 字串 但 raw in...