htmlparser 提供了強大的類庫來處理 internet 上的網頁,可以實現對網頁特定內容的提取和修改。
1.迴圈迭代所有節點
/**
* 迭代所有節點
* @param list
* @param keyword
*/public static void processnodelist(nodelist list, string keyword)
}else
} }
2.過濾關鍵字
/**
* 迴圈訪問所有節點,輸出包含關鍵字的值節點
* @param url
* @param keyword
*/public static void extractkeywordtext(string url, string keyword)catch(exception e)
}
過濾關鍵字為18,執行結果:
3.過濾標籤
/**
* @param url
*/public static void extraclinks(string url)
// todo auto-generated method stub
return false;}};
//orfilter設定過濾
orfilter orfilter = new orfilter(new nodeclassfilter(linktag.class),new nodeclassfilter(imagetag.class));
orfilter linkfilter = new orfilter(orfilter,framefilter);
nodelist list = parser.extractallnodesthatmatch(linkfilter);
for(int i = 0; i < list.size(); i ++)
else if(tag instanceof imagetag)
else
frame = frame.substring(5, end -1);
system.out.println("frame" + frame);}}
}catch(exception e)
}
過濾執行結果:
4.利用stringbean來去掉所有標籤只剩文字:
stringbean sb = new stringbean();
sb.setlinks(false);
sb.seturl(url);
system.out.println(sb.getstrings());
執行結果:
HTML Parser 簡單解釋
html parser 是乙個非常強大的用於處理 html 解析的模組。html parser 的文件沒有乙個完整的例子。所以我就把下面的我寫在 shellweb 裡的例子摘取出來,並簡單的解釋一下。use html parser my parser html parser new api vers...
內建模組 HTMLParser
假設第一步已經完成了,第二步應該如何解析html呢?html本質上是xml的子集,但是html的語法沒有xml那麼嚴格,所以不能用標準的dom或sax來解析html。好在python提供了htmlparser來非常方便地解析html,只需簡單幾行 from html.parser import ht...
HTMLParser 學習筆記
資料 html屬於xml的子集,但是格式不像xml這麼嚴格,不能用標準的 dom 或 sax 來解析 html python中自帶了乙個類htmlparser用來解析html 我們可以看到,htmlparser裡面很多方法都是空的,如果需要使用,需要重寫方法 overridable finish p...