python網頁自動摘要和關鍵詞提取

最近準備用django寫乙個cms系統，把單位的網頁遷移過去，在網上找了乙個部落格系統，但是不太滿意，摘要和tags都需要自己輸入，目標就是把他們實現自動化。

之前搞爬蟲接觸過類似的庫，readability,goose等都可以實現文字摘要，jieba具有提取tags的功能。

goose主要作用是根據**提取文字和標題。主要用的庫有urllib2，beautifulsoup；有些網頁用goose提取不到正文，只能獲得標題，因此用在內容也上比較好，目錄頁、主頁效果不太好。

用法如下：

from goose import goose
from goose.text import stopwordschinese
g = goose()
article = g.extract(url=url)
url = ''
print article.titleprint article.cleaned_text[:]

goose其實不怎麼滿足需求，簡單點的還有html2text，或者用htmlparse，甚至簡單粗暴的正規表示式。

# -*- coding: utf-8 -*-
from htmlparser import htmlparser
class mlstripper(htmlparser):
def __init__(self):
self.reset()
self.fed = 
def handle_data(self, d):
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = mlstripper()
s.feed(html)
return s.get_data()

import jieba
import jieba.analyse
def extract_tags(content,topk):
content = content.strip()
tags=jieba.analyse.extract_tags(content, topk=topk)
return ','.join(tags)

中文豐富網頁摘要和結構化標記將改寫網頁前端布局

認真看過豐富網頁摘要 rdfhnkiquo 讓你的與眾不同這篇文章的人對於豐富的網頁摘要並不陌生，就不在程式設計客棧這裡囉嗦了。由於豐富的網頁摘要顯示只是在谷歌英文介面展示，這個功能之前也沒有應用到中文網頁搜尋上來，因此國內的眾多在前端設計時把微格式考慮進去，加上國內ie6的巨大份額，不禁讓人...

Python 自動重新整理網頁

新聞文章好不好，瀏覽量比較重要。瀏覽量大，boss看了開心。因為單位網路剛建立，不是很複雜，每次增加乙個pv，瀏覽量加1。所以我就寫了乙個簡單的python指令碼，代替f5的工作。coding utf 8 import time from selenium import webdriver def...

基於python語言，自動生成文章摘要（中文）

廢話少說，直接上 coding utf 8 import jieba,copy,re,codecs from collections import counter summary pyhanlp.hanlp.extractsummary text,3 print summary print join...

python網頁自動摘要和關鍵詞提取

中文豐富網頁摘要和結構化標記將改寫網頁前端布局

Python 自動重新整理網頁

基於python語言，自動生成文章摘要（中文）

相關推薦