FME迴圈抓取百度POI資料 不受最大返回數限制

2021-10-11 16:36:34 字數 1077 閱讀 3166

基本模版如下圖所示

進行poi資料抓取的最核心,就是介面

銀行&bounds=

39.915

,116.404

,39.975

,116.414

&output=json&ak=

//get請求

具體的引數說明,看介面文件。

這裡只講我們所運用到的幾個引數

第一步是構建網路請求的url

如圖所示:

最終建立完的介面如下所示:

了解fme的也不需要多說,都知道對應的引數代表什麼。

預設當前為返回資料的起始頁。

隨後就是根據構建的url對資料進行網路請求,請求後,先獲取其"total"屬性,因為上文所說,受介面限制,單頁最大資料量為20個,範圍內最大資料量為120。

因此需要對不同情況加以判斷:

沒有返回結果的資料的,直接從rejected埠輸出;在0到20之間的,不需要進行翻頁操作,也可以直接返回,20-120之間,則需要進行翻頁,超過120的,則直接對資料進行四分,然後重新請求。

在進行翻頁操作,直接用的cloner轉換器。

對資料進行四分,原本之所以不用tiler是因為其是乙個阻塞式轉換器,再建立迴圈時,有一點麻煩。因此,我直接用的attributecreator轉換器,直接計算四分後的座標點即可。

PHP抓取百度百科資料實踐

可以看到格式為 好了現在有了url了,我們下面就要開始抓取我們想要的資料了。最想要的資料應該就是我們搜尋出來的詞條的基本資訊,就是圖下的內容 周杰倫是名人,你可按照詞條的分類不同建立不同的資料表,比如人物一張表,影視內容一張表等等,因為同一類的百科基本資訊組成都差不多。如果用nosql就更方便了,直...

正則抓取百度搜尋結果

key 電腦 url key result file get contents url pattern class resitem si preg match all pattern,result,matches echo print r matches 1 print r matches 2 ke...

爬蟲抓取百度指數思路總結

html格式 加密二進位制傳輸,怎麼都是需要 ocr的。html 的元素的 getsize 和getlocation 返回都是 0,簡單粗暴地用硬編碼了。ocr的時候,呼叫 tesseract 識別數字,不需要安裝額外的識別資料,直接呼叫 tesseract test.png test.txt l ...