最近準備用django寫乙個cms系統,把單位的網頁遷移過去,在網上找了乙個部落格系統,但是不太滿意,摘要和tags都需要自己輸入,目標就是把他們實現自動化。
之前搞爬蟲接觸過類似的庫,readability,goose等都可以實現文字摘要,jieba具有提取tags的功能。
goose主要作用是根據**提取文字和標題。主要用的庫有urllib2,beautifulsoup;有些網頁用goose提取不到正文,只能獲得標題,因此用在內容也上比較好,目錄頁、主頁效果不太好。
用法如下:
from goose import goose
from goose.text import stopwordschinese
g = goose()
article = g.extract(url=url)
url = ''
print article.titleprint article.cleaned_text[:]
goose其實不怎麼滿足需求,簡單點的還有html2text,或者用htmlparse,甚至簡單粗暴的正規表示式。
# -*- coding: utf-8 -*-
from htmlparser import htmlparser
class mlstripper(htmlparser):
def __init__(self):
self.reset()
self.fed =
def handle_data(self, d):
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = mlstripper()
s.feed(html)
return s.get_data()
import jieba
import jieba.analyse
def extract_tags(content,topk):
content = content.strip()
tags=jieba.analyse.extract_tags(content, topk=topk)
return ','.join(tags)
中文豐富網頁摘要和結構化標記將改寫網頁前端布局
認真看過 豐富網頁摘要 rdfhnkiquo 讓你的 與眾不同這篇文章的人對於豐富的網頁摘要並不陌生,就不在程式設計客棧這裡囉嗦了。由於豐富的網頁摘要顯示只是在谷歌英文介面展示,這個功能之前也沒有應用到中文網頁搜尋上來,因此國內的眾多 在前端設計時把微格式考慮進去,加上國內ie6的巨大份額,不禁讓人...
Python 自動重新整理網頁
新聞 文章好不好,瀏覽量比較重要。瀏覽量大,boss看了開心。因為單位網路剛建立,不是很複雜,每次增加乙個pv,瀏覽量加1。所以我就寫了乙個簡單的python指令碼,代替f5的工作。coding utf 8 import time from selenium import webdriver def...
基於python語言,自動生成文章摘要(中文)
廢話少說,直接上 coding utf 8 import jieba,copy,re,codecs from collections import counter summary pyhanlp.hanlp.extractsummary text,3 print summary print join...