這個作業屬於哪個課程
軟體工程
這個作業要求在**
作業要求
這個作業的目標
實現**查重演算法+單元測試+git應用,熟悉軟體開發流程
psp2.1 ( personal software process stages )
預估耗時(分鐘)
實際耗時(分鐘)
planning(計畫)
3040
estimate(估計這個任務需要多少時間)
3040
development(開發)
1060
1485
analysis(需求分析 (包括學習新技術))
300480
design spec(生成設計文件)
3025
design review(設計複審)
6030
coding standard(**規範 (為目前的開發制定合適的規範))
3030
design(具體設計)
9060
coding (具體編碼)
200480
coding review(**複審)
100180
test(測試(自我測試,修改**,提交修改))
250200
reporting(報告
4030
test report(測試報告)
4040
size measurement(計算工作量)
1020
postmortem & process improvement plan (事後總結,並提出過程改進計畫)
2020
合計1200
1635
對文字檔案實施分詞操作;
去除不必要的符號;
提取特徵值,計算相似值;
語言:python
設計流程圖:
import jieba#結巴分詞
import re#正則計算去符號
from gensim import corpora, models, similarities
#基於lsi模型的相似度計算
...
def dis_sig(str,stopwords):# 2.去符號及停用字
...if (re.match(u"[a-za-z0-9\u4e00-\u9fa5]", tags)):# 去符號
if tags not in stopwords:#去停用字
......
def com_sim(all_doc_list, doc_test_list):# 3.計算相似值
text=[all_doc_list, doc_test_list]
dictionary = corpora.dictionary(text)#構造語料庫
corpus = [dictionary.doc2bow(doc) for doc in text]
doc_test_vec = dictionary.doc2bow(doc_test_list)
lsi = models.lsimodel(corpus)#模型訓練
...similarity = similarities.sparsematrixsimilarity...#計算相似值
對於檔案的輸入輸出採取了異常處理,當輸入路徑出錯時會捕獲異常,並停止執行。
main2.py覆蓋率為100%,且總體執行時間小於2.5s。
由圖可見,原文字檔案與修改後的文字相似度較高,在打亂順序後相似度仍為0.94,由此可得基於lsi模型求解文字相似度對順序調整不敏感。
由於python包含處理文字的包,能夠較好的解決文字難以分解的問題。但由於之前並沒有接觸過python,通過查詢資料和詢問同學,可能存在不足,但自己也能夠寫完python指令碼,這次也算是有所突破。
發現了自己對相關知識了解甚少,僅靠著強大的搜尋引擎不斷的學習,才能夠有思路,**能力也存在不足,需要之後不斷練習來提高。
第一次程式設計作業
倉庫位址 psp2.1 personal software process stages 預估耗時 分鐘 實際耗時 分鐘 planning 計畫30 20estimate 估計這個任務需要多少時間 720480 development 開發180 150analysis 需求分析 包括學習新技術 1...
第一次程式設計作業
這個作業屬於哪個課程 這個作業要求在 homework 10283 作業目標 1 學習使用github 2 複習程式語言 作業正文 其他參考文獻 如何建立github倉庫 漢字是迄今為止持續使用時間最長的文字,也是上古時期各大文字型係中唯一傳承至今者,中國歷代皆以漢字為主要的官方文字。我們在感嘆漢字...
第一次程式設計作業
部落格班級 作業要求 homework 11169 作業目標 如何使用jsoup和如何第一次使用git提交 到碼雲倉庫 作業源 學號 211806408 133行,分析20分鐘,編碼70分鐘 分解需求的思路,分解成多個模組,並闡述為什麼這麼分,優勢在哪,可以附上 片段,但 片段必須控制在全文的三分之...