結隊第二次作業 WordCount高階需求

2022-07-28 15:21:26 字數 3064 閱讀 4337

本次作業

git專案位址

隊友鏈結 張子純:

附加題所有**及檔案:

031602441:(2) 自定義輸入輸出檔案;(3)加入權重的詞頻統計;(4)新增片語詞頻統計功能;(5)自定義詞頻統計輸出;(6)多引數的混合使用;附加功能 2;單元測試和效能分析; 部落格書寫

031602408:(1) 使用工具爬取**資訊;附加功能 1,3;部落格書寫

psp2.1

personal software process stages

預估耗時(分種)

實際耗時(分鐘)

planning計畫

estimate

估計這個任務需要多少時間

1710

development開發

analysis

需求分析 (包括學習新技術)

9001000

design spec

生成設計文件

1010

design review

設計複審

1010

coding standard

**規範 (為目前的開發制定合適的規範)

1010

design

具體設計

3030

coding

具體編碼

600600

code review

**複審

1010

test

測試(自我測試,修改**,提交修改)

6090

reporting報告

test repor

測試報告

2020

size measurement

計算工作量00

postmortem & process improvement plan

事後總結, 並提出過程改進計畫

6060 合計

1710

1840

1.流程圖

通過jsoup進行html解析(流程圖如上)。

2.關鍵**解析:

(1)、傳遞目標**url進行連線返回乙個document。

1   document document1 =jsoup.connect(url)

2 .header("accept-encoding", "gzip, deflate")

3 .useragent("mozilla/5.0 (windows nt 6.1; wow64; rv:23.0) gecko/20100101 firefox/23.0")

4 .maxbodysize(0)

5 .timeout(600000)

6 .get();

(2)、利用select容器過濾出**所在鏈結。

(3)、迴圈傳遞爬取的**url並建立連線,返回乙個目標**所在的html頁面。

1

for(element element6:hrefs)

34else

3538}39

else

break;40

}41if(i==numflag)//

滿足短語要求,插入map

4247

else

4851}52

}53}54 }

具體分析之前寫個人專案的時候用的不是正則判斷而我隊友用的是正則,他的**會比我快很多,所以這次我用的是正規表示式

1 pattern p1 = pattern.compile("[0-9a-za-z]+");//

字串pattern p = pattern.compile("(^[a-za-z][a-za-z0-9]*)");

//單詞

p1:提取出由數字和字母組成的字串

p:判斷該字串是否符合單詞要求。

如果兩次find()都符合則是單詞

1 start1=0;for(i=1;i//

判斷短語216

else

1720}21

else

break

;22 }

短語是由n個單詞組成的,判斷短語就是連續判斷由字串某個位置開始的n個單詞。記錄下字串中單詞的某次判斷中上次結束的位置和這次結束的位置,再把字串兩個位置間的資料插到記錄片語的字串裡,這樣就能錄入兩個有效單詞和他們間的分割符。如果最後確實連續判斷了n個單詞,則把該片語插入到map中。

描述你改進的思路

展示效能分析圖和程式中消耗最大的函式

展示出專案部分單元測試**,並說明測試的函式,構造測試資料的思路

**覆蓋率

請合理記錄commit資訊

評價你的隊友

第二次結隊作業

這個作業屬於哪個課程 軟體工程 馬駿211706121 林連坤211706187 這個作業要求在 第二次結對作業 這個作業的目標 圍繞福州大學至誠學院 停課不停教 停課不停學 的具體實踐,了解網課的授課情況,同學們的學習 情況等等,並採用資料視覺化的方式進行呈現。作業正文 隨筆我是來自電腦科學與技術...

第二次結隊作業

這個作業屬於哪個課程 課程這個作業要求在 作業位址 這個作業的目標 結對專案 第二次作業 作業正文 見下文其他參考文獻 github倉庫位址 魏鵬輝 喜歡電競,戶外活動,與人吹牛 鄧慧 喜歡手遊,鍛鍊,看動漫。同學們的專業 老師們喜歡的授課平台 喜歡的上課方式 授課效果 同學們的吸收程度 本次作業採...

結隊專案 第二次作業

031502533 熊立強 031502538 俞鋆 作業github 最好的資料及分析 資料 隨機生成的資料分布教均勻,最大差距在20左右。時間隨機生成 for tloop 0 tloop讀取檔案,用cjson解析檔案 string d ifstream infile infile.open in...