分頁就是目標**上乙個文章分為好幾頁,我們需要設定規則將其全部採到。採集要點:
1.採集規則要對每個分頁都適用。
2.分頁規則如果是全部列出,只要第乙個頁面的分頁規則就可以了。如果是上下頁,每個頁面的分頁規則也要都適用。
具體操作流程:先測試獲得所有分頁,再對每個分頁裡的內容進行獲取。
下邊我們以為例來說明一下具體的使用方法。
我們先解釋第一點:採集規則要對每個分頁都適用
我們先看一下,這裡分頁有兩個,前一頁[1]
[2]現在我們看分頁這裡的設定,全部列出是在第一頁或每一頁上都有全部的頒布文章的**,上下頁是沒有將全部的列出。我們這個規則裡選全部列出。因此,我們只要在第一頁裡找好包含所有**的區域就可以了。
看一下,上邊是有分頁**的區域,選個開頭結尾,就可以正常採到分頁了。
火車的新版是可以直觀的看到分頁**的,這對做分頁規則很有用。
注意:分頁設定下邊有個分頁內容合併連線**,你可以設定成你想要的東西,比如你cms的手動分頁標籤。
下邊我們來講乙個上下頁的分頁處理方法及如何使用手動鏈結地地規則.我們以 這個頁面為例.我們來找一下分頁的開頭和結尾,這個分頁很明顯.
████████████████████████████████████
█此頁面包含多個分頁:
█1:█2:
█3:█4:
█5:█6:
█7:█8:
█9:█10:
█11:
█12:
█13:
█14:
█15:
█16:
█17:
█18:
█19:
█有分頁匹配的標籤,比如內容注意選中標籤編輯框中的[該標籤在分頁中匹配]
████████████████████████████████████
最後乙個不是的,我們可以看到,前邊的**和後邊的是不一樣的.現在是我們使用手動填寫鏈結位址規則的時候了.在分頁鏈結位址樣式裡邊,我們寫 引數].htm 分頁**裡寫引數1].htm,現在看一下,正確了.
如何使用火車頭採集器
而dz論壇使用的是uub格式,如 p 正文 p 所以在發布時要做乙個自動轉換。下面就是設定這個自動轉換功能。如果你的文章發布的dz門戶,就不需要轉換為ubb.1 開啟發布模組配置 2 以軟體裡自帶的discuz x 2.0論壇 為模板進行修改。我試過了可以正常住discuz x 2.5發布文章。3 ...
火車頭資料庫發布模組編輯器的使用
資料庫入庫的效率是相當的高,可以是web在發布的10倍或更多。如何使用呢?只要會sql語句就可以了。比如dede 5.1的文章入庫語句 如上圖的。這裡是向兩個表中新增了字段,archives 和addonarticle.注意裡邊有個資料表前輟,這個是用來獲取第乙個插入記錄的id,獲取的是archiv...
使用Web Harvest抓取分頁的資料
可以利用其自帶的例子裡面已經寫好了的那個函式,在functions.xml檔案裡面,只要 在配置檔案的開頭把include進來就行了 functions.xml檔案如下 其裡面的各個引數的意義 第乙個是指開始的那個頁面的url 第二個是指你要在頁面裡面取得的乙個list,比如說是href的list或...