是不是感覺有點無從下手?別慌,慢慢來。通過對比網頁和網頁**我們確認資訊特徵。
房產名稱:
急降60萬 急賣全款客戶來 寶山二村好位置
複製該資訊,到html檔案中通過ctrl+f查詢該資訊,然後認真檢視「房產名稱」前後的字元特徵:
前面的字元特徵:
;" >
後面的字元特徵:
現在對照房產名稱前後的字元特徵編寫正規表示式,同時給「房產名稱」進行分組命名(?p.*?):
;" >(?p.*?)
注意: .*?在爬取網頁時經常會用到,表示匹配任意內容任意數量直到遇到後面的字元特徵結束)
房型:
前面的字元特徵:
span>
後面的字元特徵:
如法炮製,提取「房型」資訊並進行分組命名(?p.*?):
span>(?p.*?)
注意: 在房產名稱和房型之間有大段網頁**,我們可以寫.*?對應該段**表示跳過。
面積:
前面的字元特徵:
後面的字元特徵:
如法炮製,提取「面積」資訊並進行分組命名(?p.*?):
(?p.*?)總價:
現在就剩最後一項「總價」資訊,繼續查詢該資訊前後的字元特徵:
前面的字元特徵:
後面的字元特徵:
<
如法炮製,提取「總價」資訊並進行分組命名(?p.*?):
(?p.*?)<
現在提取網頁資料四項資訊的正規表示式均已寫好,注意每一項資訊之間間隔了很多的網頁**,我們可以用.*?對應該段**表示跳過。讓我們現在把4段資訊連起來,寫出完整的正規表示式:
rex = ';" >(?p.*?) .*?span>(?p.*?).*?(?p.*?) (?p.*?)<'
Linux正規表示式 編寫正規表示式
為了所有實用化的用途,你可以通過使用程式產生正確的結果。然而,並不意味著程式總是如你所願的那樣正確地工作。多數情況下,如果程式不能產生想要的輸出,可以斷定真正的問題 排除輸入或語法錯誤 在於如何描述想要的東西。換句話說,應該考慮糾正問題的地方是描述想要的結果的表示式。表示式不完整或者公式表示得不正確...
正規表示式 正規表示式 總結
非負整數 d 正整數 0 9 1 9 0 9 非正整數 d 0 負整數 0 9 1 9 0 9 整數 d 非負浮點數 d d 正浮點數 0 9 0 9 1 9 0 9 0 9 1 9 0 9 0 9 0 9 1 9 0 9 非正浮點數 d d 0 0 負浮點數 正浮點數正則式 英文本串 a za z...
正規表示式 表示式
網域名稱 a za z0 9 a za z0 9 a za z0 9 a za z0 9 interneturl a za z s 或 http w w w 手機號碼 13 0 9 14 5 7 15 0 1 2 3 5 6 7 8 9 18 0 1 2 3 5 6 7 8 9 d 號碼 x x x...