上次完成了功能描述(1)將資料匯入到資料庫
所以這一次,我準備開始第二個功能:將手冊涉及的熱詞自動分類展示,將每個熱詞自 動建立關鍵字、模糊檢索兩個字段便於檢索
起初老師建議的是用spark完成,由於一直在windows沒配置好spark環境,在ubuntu中又太卡,所以我決定用python實現此功能
今天就先提取關鍵字:
2.在提取關鍵字的時候為了防止關鍵字提取過多而造成關鍵字不夠嚴格和包容,所以我只提取了關鍵字出現較多的前20個(當然你也可以修改提取的個數)
3.基於上面的步驟,下面就是python**
#寫入資料:如圖示encoding=utf-8
import
jieba
import
jieba.analyse
import
pymysql
#全模式
jieba.load_userdict("
it.txt
"jieba.analyse.set_stop_words(
'except.txt
')#該檔案中可以寫入你不需要的關鍵自
db = pymysql.connect(host='
localhost
', user='
root
', passwd='
root
', db='
dazuoye
', port=3306, charset='
utf8')
conn = db.cursor() #
獲取指標以運算元據庫
conn.execute('
set names utf8')
conn.execute(
"select * from info_tech")
result=conn.fetchall()
for data in
result:
text = data[4]
#精確模式
keywords = jieba.analyse.extract_tags(text, topk=20, withweight=true, allowpos=('
n', '
nr', 'ns'
))#取關鍵字頻率最高的前20個
seg_list = jieba.cut(text, cut_all=false) #
tags = jieba.analyse.extract_tags(text,topk=20)
print(u"")
keyw=""
for item in
keywords:
print(item[0], item[1])
keyw=keyw+item[0]+"
"t=(keyw,int(data[0]))
sql = "
update info_tech set keyword = '%s' where `index` = %d
" %t #將關鍵字寫入資料庫,以空格劃分存入一列中
(sql)
conn.execute(sql)
db.commit()
sift開發記錄2
sift演算法的c 實現 使用opencv中提供的sift類庫,opencv2.3.1在vs2010中的配置參見日誌opencv2.3.1在vs2008和vs2010平台上安裝配置 方法一 建立乙個控制台應用程式 如下 include stdafx.h include highgui.h inclu...
Django開發記錄 2
配置view.py檔案 新增url,配置urls.py檔案 import blog.views as bv urlpatterns path admin admin.site.urls path index bv.index 通過include方法,匯入外部檔案。修改myblog.urls.py f...
DTS開發記錄(2) 資料管道及外掛程式
通過前面兩篇文章 已於2006 07 03修正 的介紹,我們已經大致明白了系統的目標的總體結構,從這篇文章開始,我們將逐漸深入到系統內部。本文講述資料管道,資料管道是用於在資料來源 資料目標與datatable之間進行資料傳遞的元件,它是與資料庫型別和檔案型別相關的,資料從資料來源經過資料管道後,就...