我需要計算包含如下文字的文字檔案的unigrams、bigrams和trigrams:
「僅在美國,囊性纖維化就影響了30000名兒童和年輕人
吸入鹽水的霧氣可以減少充滿囊性纖維化患者氣道的膿液和感染,儘管***包括劇烈的咳嗽和難聞的味道。
這是本週出版的《新英格蘭醫學雜誌》上發表的兩項研究的結論。」
我從python開始使用以下**:#!/usr/bin/env python
# file: n-gram.py
def n_gram(n,text):
nlist = # start with an empty list
if n> 1:
space = " " * (n-1) # add n - 1 spaces
text = space + text + space # add both in front and back
for i in range( len(text) - (n - 1) ):
return nlist # return the list
# test code
for i in range(5):
print n_gram(i+1,"text")
# more test code
nlist = n_gram(7,"here is a lot of text to print")
for ngram in iter(nlist):
print '"' + ngram + '"'
但它對乙個詞內的所有n-克都有效,當我想要它在兩個詞之間時,如在囊性纖維化或囊性纖維化中。有人能幫我解決這個問題嗎?
用SourceInsight閱讀Python工程
首先從http www.sourceinsight.com public languages python.clf 然後對sourceinsight作如下配置 1 選擇options preferences,單擊languages選項 2 單擊import按鈕,裝載並匯入python.clf 3 這...
python人生苦短 人生苦短,我用Python
python學習筆記 每日總結,反思.學習,1,注釋 單行注釋 注釋內容 多行注釋 注釋內容 快捷鍵 ctrl 2,變數 type 變數 用來檢視變數型別 變數型別,程式中需要特別注意變數型別,很容易報錯,或者很熟悉變數型別的報錯,錯了再改也成.格式轉化 紅線常用 bool布林型別 ture和fla...
用 PyInstaller 打包封裝python
pip install pyinstallertest.py 以及 test.png test2.png 用於介面顯示到圖示檔案。輸出乙個test 可以執行程式檔案,可直接執行。如 test.實際上,這個檔案可執行程式檔案是乙個包,執行過程中會將這個包解壓縮到 tmp mei 路徑下,執行結束會自動...