·計數函式
1.len() 計算文字長度(以單詞和標點符號為單位)
>>>len(text1)
44764
>>>
2.set() 用於獲取文字詞彙表(去重)
3.sorted() 得到乙個詞彙條目的排序表,這個表以各種標點開始,然後接著是以a開頭的詞彙,大寫排在小寫之前。
>>>sorted(set(text3))
['!',"'",'(',')',',','.','a','abel','abidah'...]
>>>len(set(text3))
2789
>>>
注:儘管書中有44764個識別符號,但只有2789個不同的詞彙或者『詞型別』。詞型別是指乙個詞在乙個文字中獨一無二的出現或者拼寫形式。
計算每個詞的平均使用次數:
>>>from _future_import division
>>>len(text3)/len(set(text3))
16.05 0197203298673
>>>
·自定義函式使用關鍵字def給函式定義乙個簡短的名字,可以在括號中自定義引數。經過def定義後可直接使用。
注:和c語言define不同,不是直接替換的關係。
例子:
>>>def lexical_diversity(text):
... return len(text)/len(sent(text))
...>>>def percentage(count,total):
... return 100*count/total
...>>>lexical_diversity(text3)
16.05 0197203298673
>>>percentage(4,5)
80.0
注:當遇到第一行末尾的冒號時,python直譯器由》變為...
...提示符表示的是python期望的是在後面出現乙個縮排**塊,縮排由自己決定,4空格或者tab,結束縮排**段輸入空行。
*本文中所有**均來自《
python
自然語言處理》(steven bird,ewan klein&edward loper)
c 入門之字元相關入門
先上 1 include iostream 2 include string 3 define byte char 注意,這裡沒有分號,且 只能放在函式外面.4int main 515 cout after loop ends,word is word 16 17 byte a 使用define 定...
c 棧的相關入門題目
棧的經典例題 1.棧排序 題目背景 給出定乙個已經裝有數的棧,要求使用乙個輔助棧,完成原始棧的排序,且除必要單變數外,不用其它任何資料結構 包括陣列 即你可以使用的資料結構只有一種 兩個 原始棧和輔助棧。輸入格式 第一行乙個數n,表示原棧裡面數的個數 第二行n個整數,按照原始棧從棧底到棧頂的順序給出...
linux之搜尋查詢類相關的指令
find 從指定目錄下遞迴地遍歷其各個子目錄,將滿足條件的檔案或者目錄顯示在終端 基本語法 find 搜尋範圍 選項 選項 locate 快速定位檔案路徑。locate指令利用事先建立的系統中的所有檔名稱及路徑的locate資料庫實現快速定位給定的檔案。locate指令無需遍歷整個檔案系統,查詢速度...