記錄一些爬蟲的小細節

2022-05-06 23:48:10 字數 532 閱讀 5312

1.使用beautifulsoup初始化用requests獲取到的html文字時,有時候會出現亂碼現象,只需要指定response.encoding = 'utf-8' 即可

2.有時候使用selenium定位元素時,定位**沒有問題,但是提示定位不到,這是因為頁面中存在多個iframe標籤,相當於多個子頁面,你需要在相應的子頁面裡面選取你需要的元素,比如你在名為a的iframe當中選取名為b的iframe,肯定時選取不到的,同時他的預設deafult-content是整個頁面,不包含iframe,也就是說你切換到乙個iframe當中選取完元素之後,如果你要在iframe之外選取其他元素,就需要切換回預設頁面,總的來說就是看你要選取的元素在id為什麼的iframe當中,然後切換到那個iframe當中即可,

browser.switch_to.default_content()    # 切換到預設**快當中

browser.switch_to.frame(

"iframeresult

") #切換到id為iframeresult的**塊當中

關於爬蟲的一些記錄

普通的文字型爬蟲就不說了,這裡主要說一下在爬取有js指令碼和驗證碼的一些內容時,遇到的坑。作業系統的選擇 由於爬蟲 資訊分析ai web介面都部屬在centos上,且系統部署的最優選擇還是centos。爬蟲方面,文字型爬蟲是基礎,模擬瀏覽器也是必須的。目前模擬瀏覽器就三樣,firefox chrom...

一些Java程式設計上的小細節

1 使用 stringbuilder 拼接字串時,將單個拼接的標點符號用單引號,作為 char 型別的入參傳入。public string tostring if contentencoding null final long len getcontentlength if len 0 return...

C 的一些細節

1.c 中,將負數賦值給unsigned是完全合法的。例如,將 1賦值給unsigned char,那麼結果是255.2.c 中,double的精度和計算速度都要超過float,long double則需要承擔額外的執行代價。3.std ou t hi d endl 等價於std out hi 4....