第一次程式設計作業

2022-08-13 13:18:16 字數 2533 閱讀 7767

這個作業屬於哪個課程

軟體工程

這個作業要求在**

作業要求

這個作業的目標

實現**查重演算法+單元測試+git應用,熟悉軟體開發流程

psp2.1 ( personal software process stages )

預估耗時(分鐘)

實際耗時(分鐘)

planning(計畫)

3040

estimate(估計這個任務需要多少時間)

3040

development(開發)

1060

1485

analysis(需求分析 (包括學習新技術))

300480

design spec(生成設計文件)

3025

design review(設計複審)

6030

coding standard(**規範 (為目前的開發制定合適的規範))

3030

design(具體設計)

9060

coding (具體編碼)

200480

coding review(**複審)

100180

test(測試(自我測試,修改**,提交修改))

250200

reporting(報告

4030

test report(測試報告)

4040

size measurement(計算工作量)

1020

postmortem & process improvement plan (事後總結,並提出過程改進計畫)

2020

合計1200

1635

對文字檔案實施分詞操作;

去除不必要的符號;

提取特徵值,計算相似值;

語言:python

設計流程圖:

import jieba#結巴分詞

import re#正則計算去符號

from gensim import corpora, models, similarities

#基於lsi模型的相似度計算

...

def dis_sig(str,stopwords):# 2.去符號及停用字

...if (re.match(u"[a-za-z0-9\u4e00-\u9fa5]", tags)):# 去符號

if tags not in stopwords:#去停用字

......

def com_sim(all_doc_list, doc_test_list):# 3.計算相似值

text=[all_doc_list, doc_test_list]

dictionary = corpora.dictionary(text)#構造語料庫

corpus = [dictionary.doc2bow(doc) for doc in text]

doc_test_vec = dictionary.doc2bow(doc_test_list)

lsi = models.lsimodel(corpus)#模型訓練

...similarity = similarities.sparsematrixsimilarity...#計算相似值

對於檔案的輸入輸出採取了異常處理,當輸入路徑出錯時會捕獲異常,並停止執行。

main2.py覆蓋率為100%,且總體執行時間小於2.5s。

由圖可見,原文字檔案與修改後的文字相似度較高,在打亂順序後相似度仍為0.94,由此可得基於lsi模型求解文字相似度對順序調整不敏感。

由於python包含處理文字的包,能夠較好的解決文字難以分解的問題。但由於之前並沒有接觸過python,通過查詢資料和詢問同學,可能存在不足,但自己也能夠寫完python指令碼,這次也算是有所突破。

發現了自己對相關知識了解甚少,僅靠著強大的搜尋引擎不斷的學習,才能夠有思路,**能力也存在不足,需要之後不斷練習來提高。

第一次程式設計作業

倉庫位址 psp2.1 personal software process stages 預估耗時 分鐘 實際耗時 分鐘 planning 計畫30 20estimate 估計這個任務需要多少時間 720480 development 開發180 150analysis 需求分析 包括學習新技術 1...

第一次程式設計作業

這個作業屬於哪個課程 這個作業要求在 homework 10283 作業目標 1 學習使用github 2 複習程式語言 作業正文 其他參考文獻 如何建立github倉庫 漢字是迄今為止持續使用時間最長的文字,也是上古時期各大文字型係中唯一傳承至今者,中國歷代皆以漢字為主要的官方文字。我們在感嘆漢字...

第一次程式設計作業

部落格班級 作業要求 homework 11169 作業目標 如何使用jsoup和如何第一次使用git提交 到碼雲倉庫 作業源 學號 211806408 133行,分析20分鐘,編碼70分鐘 分解需求的思路,分解成多個模組,並闡述為什麼這麼分,優勢在哪,可以附上 片段,但 片段必須控制在全文的三分之...