好久沒更了,今天記錄下爬蟲遇到問題解決辦法的思想。
前兩天需求根據關鍵字去某站搜尋,最終獲得條數。
當時發現問題之後,想了乙個辦法。匹配搜尋字串在當前頁面出現的次數。
這個問題想了好多種辦法,我來一一描述,
1、對搜尋字串進行分割,取第一句,或者,最長的句子(考慮,搜尋內容標點符合不確定性及長度不確定性就放棄)
2、替換掉結果頁中em標籤(但發現,某狗會自動轉化英文符號,考慮不確定性因素太大,放棄)
3、後來果斷啥也不替換直接,提取所有中文,這樣就沒了雜七雜八的問題,果然還是單純的好騙。
preg = "/[\x-\x]+/u"; //正則所有中文preg_match_all($preg,$str,$matches
); //結果頁格式化
preg_match_all($preg,$txtjt,$matches_txtjt
$geshi_str = implode($matches[0]); //拼接
$geshi_txtjt = implode($matches_txtjt[0]); //拼接
echo
preg_match_all('/'.$geshi_txtjt.'/',$geshi_str,$match2
); //獲得匹配次數
var_dump($match2);
根據這個匹配次數的多少選擇是否錄用結果,提高了嚴謹性
微信支付結果通用通知
由於存在重新傳送後台通知的情況,因此同樣的通知可能會多次傳送給商戶系統。商戶系統必須能夠正確處理重複的通知。推薦的做法是,當收到通知進行處理時,首先檢查對應業務資料的狀態,判斷該通知是否已經處理過,如果沒有處理過再進行處理,如果處理過直接返回結果成功。在對業務資料進行狀態檢查和處理之前,要採用資料鎖...
微信小程式 支付結果通知
同樣的通知可能會多次傳送給商戶系統。返回結果sign進行驗證 成功引數 readdata具體 2.拿到xmlstr的資料後進行解析 1.使用hutool的xmlutil轉換成map mapresult xmlutil.xmltomap strxml 2.對兩個狀態判斷return code resu...
python自動傳送結果到企業微信
直接上 首先在當前目錄將乙個 config.conf 檔案,填寫如下資訊。具體配置請參考 mass corpid x corpsecret x agentid x touser x 接收者使用者名稱2 新建wechat.py,輸入如下 usr bin env python encoding utf ...