上次有個朋友來問了乙個關於seo方面的問題,把html文件中的所有的alt屬性值替換成指定的值。首先我們就想到用正規表示式,目標任務:只替換img標籤的alt屬性值。
alt屬性可能不只有img有,所以限定只替換img的alt屬性。輸入的話,乙個html文件差不多有上萬行**。所以用簡單粗暴的查詢替換是可恥的。正則才是比較優雅的解決之道。
現在我們來分析一下我們要替換的字串的特徵。
1、以「
2、帶有alt屬性;
3、img標籤到alt屬性之間存在未知的字元。
嗯,我們先解決第一步,找出img標籤,寫出如下:/]*>/g
接下來這就是找到有alt屬性的,寫出如下: /]*alt=('|")(.*?)\1.*>/g
其實解決第二步並沒有這麼簡單,都是碰到了很多問題後面才寫出來的,包括img到alt這一段之間的字元如何處理,以及alt到閉合標籤"/>"之間的情況,而且有些**的img標籤都沒有寫對正確的閉合標籤,類似:
好了, 借用電競三醜的一口頭禪:可以,不跟你多bb。上**:
static void main(string args)
catch( exception ex )
finally
if( null != sw )}}
這裡需要解釋一下,**中使用的正規表示式是:]*?)alt=('|")(.*?)\2,
替換的是:
因為我們只需要替換alt的值,所以alt屬性之後的那一段字串,我們不需要理會,因為alt的值有可能使用了單引號或者是雙引號,我們這裡使用分組(第二個分組)從而解決這種問題,但是為什麼前面的img到alt屬性之前也使用了乙個分組(第乙個分組)?這個分組是在替換時使用的,$1表示了上面正規表示式第乙個分組的值,這樣就可以完全的複製過來,只需要替換alt的值就可以了。
測試結果:
輸入文字:
輸出結果:
正規表示式(二) 正規表示式的切割
切割 還記得stirng的split的方法嗎.可以按照 空格,豎線 對字串進行切割.正規表示式的切割 是指,我們按照正規表示式的規則對字串來進行一些複雜的切割 比方說現在我想按照多個空格來進行切割 string str zhangsan lisei wangwu string reg s s在這裡代...
正規表示式(二)
三 正規表示式高階 1.後向引用 exp 匹配exp,並捕獲文字到自動命名的組裡,命名規則為從左向右 從1開始依次分組,分組0對應整個正規表示式 n 重複搜尋前面分組n匹配的文字 例如 b w b s 1 b,編號為1的分組為 b w b,表示乙個單詞,整個表示式用來匹配重複的單詞,像go go,或...
正規表示式 二
正規表示式 二 一 sed 可以將資料進行取代 刪除 新增 擷取 語法 sed nefr 動作 n 使用安靜模式。在一般sed的用法中,所有來自stdin的資料一般都會被列出到螢幕上。但是加上 n引數後,則只有經過sed特殊處理的哪一行才會被列出 e 直接在指令列模式上進行sed的動作編輯 f 直接...