1.bs4庫的使用
(1)了解bs4庫,beautiful soup 是乙個html/xml 的解析器,主要用於解析和提取 html/xml 資料。
(2)安裝beautifulsoup庫,匯入bs4,再從bs4庫中匯入beautifulsoup,順序很重要,如果直接匯入beautifulsoup會報錯,個人經驗;
2.xpath
(1)xpath即為xml路徑語言(xml path language),它是一種用來確定xml文件中某部分位置的語言。
(2)呼叫方法:from lxml import etree
3.正規表示式
(1)剛學正規表示式是在學習c#時,個人感覺這個表示式不是很好理解,雖然簡化了很多形式,有非常使用的價值,但學習還是有難度,現在在python爬蟲學習這裡,再次接觸,也有不一樣的感受。
(2)呼叫方法:import re
4.對這三種庫的學習在**的練習中,後續會進行一些總結補充
python爬蟲學習,零基礎入門(三)
了解session和cookies selemium,ip 為爬取需要使用者登入的 做準備 1 靜態網頁和動態網頁 靜態網頁也就是html頁面,不可以在頁面做更改 動態網頁是用jsp或者php等語言編寫的,是可以在頁面做更改的。2 session是會話的意思,產生在伺服器端,儲存在記憶體中 cook...
零基礎入門學習Python
課程介紹 前半部分主要講解python3的語法特性,後半部分著重講解python3在爬蟲 tkinter pygame遊戲開發等例項上的應用。整個系列共16個章節,前邊13個章節從乙個小遊戲引入python,逐步介紹python的語法以及語言特色。最後3個章節為案例的演示,是前邊內容的總結和提高。課...
零基礎入門學習python
1.從idie啟動python idle是乙個python shell,shell的意思就是 外殼 從基本上說,就是乙個通過輸入本與程式互動的途徑。像windows的cmd的視窗,像linux那個黑乎乎的命令視窗,它們都是shell,利用它們,就可以給作業系統下達命令。同樣,可以利用idle這個sh...