1分鐘快速生成用於網頁內容提取的xslt

2022-10-04 20:15:26 字數 1026 閱讀 5725

1分鐘快速生成用於網頁內容提取的xslt,具體內容如下

1、專案背景

在《python即時網路爬蟲專案說明》一文我們說過要做乙個通用的網路爬蟲,而且能節省程式設計師大半的時間,而焦點問題就是提取器使用的抓取規則需要快acgompsbe速生成。在python使用xslt提取網頁資料一文,我們已經看到這個提取規則是xslt程式,在示例程式中,直接把一長段xslt賦值給變數,但是沒有講這一段xslt是怎麼來的。

網友必然會質疑:這個xslt這麼長,編寫不是要花很長時間?

實際情況是,這個xsl程式設計客棧t是通過gooseeker的ms謀數台的直觀標註功能自動生成的,熟練的話1分鐘就搞定了。

2、ms謀數台能做什麼

ms謀數台有個圖形化介面,把一系列html解析工具整合在一起,包括:

ms謀數台介面分成三部分:dom數視窗、內嵌瀏覽器視窗、工作台。在工作台上定義xslt轉換規則。

3、用ms謀數台生成xslt

假設我們要抓取論壇帖子列表,下面一步步講解操作方法:

第一步,開啟gooseeker的ms謀數台,輸入要抓取的**

第二步,在ms謀數台的瀏覽器顯示視窗裡,直接選取要提取的內容,並且起個名字,點選確認

第三步,點選工作台的「測試」按鈕,xslt就生成了,在「資料規則」視窗顯示出來

通過以上的操作,不用程式設計,用圖形化介面直接在頁面上標註,1分鐘就可以生成xslt

4、怎樣使用xslt

在python使用xslt提取網頁資料一文,我們把生成xslt作為乙個字串交給程式,給人感覺好像一下子回到了史前文明,前面講的那麼好,最後用了很原始的拷貝。其實不然,那個只是乙個例子。在《python即時網路爬蟲專案: 內容提取器的定義》一文已經初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在後續文章中詳細講解。

5、文件修改歷史

2016-05-28:v3.0,增加第二章

2016-05-26:v2.0,增補文字說明

本文標題: 1分鐘快速生成用於網頁內容提取的xslt

本文位址: /jiaoben/python/221171.html

git 入門教程之1分鐘快速了解 git

git是分布式版本控制系統,是文字文件管理的利器,是幫助你管理檔案動態的好幫手.如果你曾經手動管理過文件,一定有這樣的經歷,比如你正在編輯文件,想刪除某段落,又擔心不久後可能會恢復,此時你可能會先備份然後再刪除,或者想要修改某段落,幾經修改後發現還是最初的比較好,這是就哭笑不得了.從最初的新建文件,...

(1)資料結構基本概念2分鐘快速了解

資料結構是一門研究非數值計算程式設計問題的中的操作物件,以及它們之間關係和操作等相關問題的學科 大話資料結構 可以看出資料結構是一種靜態與動態的統一描述 物件 物件關係與操作。有了描述物件 資料化 及描述物件關係與操作的方式後,即資料結構。為了解決問題,我們還需要演算法來處理 利用這種資料結構 資訊...

一分鐘學會使用PHP生成網頁驗證碼

現在web頁面上的表單一般都會內嵌一條驗證碼輸入,以防止伺服器被惡意dos攻擊或者不法之徒利用機器程式自動貼牛皮癬廣告。在php裡的簡單實現方法如下 再由php程式自動生成隨機的待驗證的一串數字和字母組合的字元,呼叫imagettftext 函式畫到中,並把這串字元儲存到session級變數中。以下...