FME迴圈抓取百度POI資料不受最大返回數限制

基本模版如下圖所示

進行poi資料抓取的最核心，就是介面

銀行&bounds=

39.915

,116.404

,39.975

,116.414

&output=json&ak=

//get請求

具體的引數說明，看介面文件。

這裡只講我們所運用到的幾個引數

第一步是構建網路請求的url

如圖所示：

最終建立完的介面如下所示：

了解fme的也不需要多說，都知道對應的引數代表什麼。

預設當前為返回資料的起始頁。

隨後就是根據構建的url對資料進行網路請求，請求後，先獲取其"total"屬性，因為上文所說，受介面限制，單頁最大資料量為20個，範圍內最大資料量為120。

因此需要對不同情況加以判斷：

沒有返回結果的資料的，直接從rejected埠輸出；在0到20之間的，不需要進行翻頁操作，也可以直接返回，20-120之間，則需要進行翻頁，超過120的，則直接對資料進行四分，然後重新請求。

在進行翻頁操作，直接用的cloner轉換器。

對資料進行四分，原本之所以不用tiler是因為其是乙個阻塞式轉換器，再建立迴圈時，有一點麻煩。因此，我直接用的attributecreator轉換器，直接計算四分後的座標點即可。

PHP抓取百度百科資料實踐

可以看到格式為好了現在有了url了，我們下面就要開始抓取我們想要的資料了。最想要的資料應該就是我們搜尋出來的詞條的基本資訊，就是圖下的內容周杰倫是名人，你可按照詞條的分類不同建立不同的資料表，比如人物一張表，影視內容一張表等等，因為同一類的百科基本資訊組成都差不多。如果用nosql就更方便了，直...

正則抓取百度搜尋結果

key 電腦 url key result file get contents url pattern class resitem si preg match all pattern,result,matches echo print r matches 1 print r matches 2 ke...

爬蟲抓取百度指數思路總結

html格式加密二進位制傳輸，怎麼都是需要 ocr的。html 的元素的 getsize 和getlocation 返回都是 0，簡單粗暴地用硬編碼了。ocr的時候，呼叫 tesseract 識別數字，不需要安裝額外的識別資料，直接呼叫 tesseract test.png test.txt l ...

FME迴圈抓取百度POI資料 不受最大返回數限制

PHP抓取百度百科資料實踐

正則抓取百度搜尋結果

爬蟲抓取百度指數思路總結

相關推薦

FME迴圈抓取百度POI資料不受最大返回數限制