編寫網頁爬蟲需要的一些前置知識 2 XPath

2021-10-24 20:13:45 字數 403 閱讀 8350

xpath則提供了乙個方便的方法

xpath即為xml路徑語言(xml path language),它是一種用來確定xml文件中某部分位置的語言

xpath是樹狀結構的,打個比方就像電腦裡的檔案系統一樣,你可以通過檔案路徑快速訪問到檔案,同理通過xpatch快速找到html中想要的文字內容

通過瀏覽器「檢查」的功能,可以簡易快速找到想要的html內容

例如chrome 給我們提供了一鍵獲取 xpath 位址的方法(右鍵->檢查->copy->copy xpath),如下圖:

通過這個方法可以快速找到對應內容的xpath,再利用scrapy等爬蟲框架可以非常有效的抓取內容

MCMC取樣法 一些前置知識

作為一種隨機取樣方法,馬爾科夫鏈蒙特卡羅 markov chain monte carlo,以下簡稱mcmc 在機器學習,深度學習以及自然語言處理等領域都有廣泛的應用,是很多複雜演算法求解的基礎 下面我們就對mcmc的原理做乙個總結。從名字我們可以看出,mcmc由兩個mc組成,即蒙特卡羅方法 mon...

關於網頁字型的一些知識

字型族 字型大小 字型大小單位分兩種絕對單位和相對單位。今天裝置的螢幕尺寸可謂千差萬別,既有特大的顯示屏,又有很小的手機螢幕。在這種形勢下,更容易縮放的相對大小應該是首選。如果你想使用 em,但又需要設定具體的畫素大小,可以把 body 的 font size 設定為62.5 這樣,就等於把基準大小...

scrapy爬蟲整理的一些知識點

一 xpath選取某乙個節點的後鄰兄弟節點 html 片段如下 class total comment 123456li hello worldli li href www.example.com 中國好聲音a 使用following sibling 它的意思是某個元素後面的全部元素,是乙個list...