近期遇到這樣乙個問題:寫乙個程式,分析乙個文字檔案(英文文章)中各個詞出現的頻率,並且把頻率最高的10個詞列印出來。
解決這個問題我認為要解決這樣幾個問題:
1)如何實現文字檔案中資料的有效讀取;(這個本人對檔案操作不太熟練,所以單獨拿出來當做乙個問題)
2)如何從讀出的資料中分析出乙個乙個的單詞;
3)如何累計計算出每個單詞的出現次數;
4)如何為每詞出現的次數排序,列印出出現次數前10的單詞;
5)演算法的效率問題,即對整個文字檔案中資料的遍歷次數;
初步**如下:
#include
#include
#include
#define max 1000000
void main()word[max],temp;
file *fp;
char ch;
int flag=0;//指示前乙個字元是不是非英文本母字元,前乙個字元是非英文本母置flag=0,不是非英文flag=1
int i=0,j=0,k=0;//計數
for(i=0;i='a'&&ch<='z')||(ch>='a'&&ch<='z'))!=0){
flag=0;
i++;
j=0;
for(k=0;k執行沒有錯誤,但是不出結果,很是鬱悶。3個小時的成果,也就這樣。下週繼續吧。
to be continued...
C語言文字檔案解析
把檔案按照行分割成多個檔案 define row max length 80 define fnm max length 12 include include void main char ufilename fnm max length while ch eof ch fgetc fp 讀取單個字...
C 實現文字檔案合併
c 實現文字檔案合併 讀取n個文字檔案,把檔案內容合併到乙個文字檔案中。主要用了filestream的readbyte和writebyte方法 class filecombine catch system.exception ex finally 呼叫方法如下 class testcombine 揀...
《資料科學 R語言實現》 2 4 掃瞄文字檔案
在之前的教程中,我們介紹了如何使用read.table和read.csv載入資料到r程序中。然而,read.table和read.csv只適用於列數固定,資料不多的情形。為了在資料處理過程中更加靈活,我們會介紹如何使用函式scan從檔案中讀取資料。執行下列步驟,掃瞄csv檔案中的資料。1.首先,你可...