學習記錄 1

2021-07-09 21:22:21 字數 1998 閱讀 8301

首先開啟示例的「文字挖掘」工作流,看到裡面有三個節點:

右鍵檢視excel節點中的示例資料,發現**是詞頻表。

所以這個示例工作流是處理提取好的詞頻表,而不是處理原始資料提取詞彙。excel節點的引數都很好理解,看了就懂了,所以略過。

第二個節點是篩選高頻詞,右鍵看此節點的配置。

第乙個選項(選擇方式)是選擇需要處理的資料的方式,可以通過行屬性(行名稱)、數字(行號)、行id(正規表示式匹配行id)來選擇。一般選擇行屬性方式,具有解釋性,否則還要開啟表看行號行id,比較麻煩。示例選擇的是行屬性。

第二個選項是過濾引數。模式匹配是通過某種模式(如正規表示式)來過濾選擇的資料;僅匹配缺失值同字面意思,匹配的是缺失測試欄位的資料;範圍檢查是過濾字段值在上限(下限)以外的資料。

示例選擇的是範圍檢查,過濾掉詞頻小於100的詞彙。生成的詞云如下:

滑鼠移動到詞云上的某個詞時,還會顯示其詞頻。很方便的視覺化!

想了一下,模式匹配可以用在過濾詞彙的非數字表達屬性(比如情感色彩,詞性之類的),然後生成不同屬性詞彙的詞雲圖。

下面自己找資料試驗。

從網上找了乙個英文單詞的詞頻表。

資料說明:詞頻表有5列 (rank, lemma, pos, freq, dispersion),含義如下

lemma, 即單詞

freq = frequency in the corpus

dispersion = juilland』s dispersion measure (0-1): how 「evenly」 the lemma is distributed across the corpus

rank = a function of score (not shown here), but which is calculated as: freq disp*

pos = part of speech

主要使用的是lemma, freq, pos這三列。

excel節點配置:

讀取列選擇b-d列,讀取行不填就會讀取全部。重新整理一下就會發現」預覽」變成了配置中選中的行和列。

篩選引數設定:

把pos不是n的過濾掉,即留下了名詞。

但是這樣留下的詞太多了,還是有很多頻數很小的詞存在,這樣不好畫詞雲圖。

所以,增加乙個篩選高頻詞節點,配置為freq-範圍檢查-下限30000

這樣就只剩下詞頻在30000以上的單詞了。下限的確定是要根據詞彙數量來修改的,過多過少詞云都不好看。

現在工作流是這樣的:

畫出的詞雲圖是這樣的:

詞頻統計表的語料是coca(現代美國英語語料),語料庫包含超過5.2億詞彙,且均勻取自口語、**、雜誌、報紙和學術文字。

詞雲圖上,中間較大的幾個詞彙是way, family, home, game, company, law等等。簡單得出乙個結論,家庭、公司、法律在美國人的生活中占有不小的比例。好像是廢話:)不過至於怎麼深入分析還是以後再說。

php學習記錄1

net的iis,framwork,window系統等都不是free的,所以,我在的專案組承載著公司走向外網的報復,於是,free造就了我開始php開發之行。這週做了這些事情 2 搭起環境後,心裡有底氣多了。專案組的其它人都封閉設計去了,我這個唯一的兵唯一的活就是學php,剛開始兩天因為沒有搭起環境來...

shell 學習記錄(1)

unix系統有乙個非常強大的特性 因為所有資源都是檔案,你可以將所有資源引用和將其從乙個位置重定向到另乙個位置。重定向的操作符 表示標準輸 入 stdin 表示標準輸出 stdout 所以,如果你需要乙個命令從鍵盤中讀取資訊,你可以進行如下操作 somecommand 但當要你的命令從乙個檔案中讀取...

WPF學習記錄1

目前由於工作的需要,需要學習wpf,在學習技術之前,看看wpf有哪些特點 2 與解析度無關,wpf使用的向量圖 3 支援硬體加速,wpf採用d3d實現,由圖形處理單元gpu來完成渲染工作 4 聲名式程式設計,採用xaml文字方式 5 支援自定義控制項 6 易部署,一套 既能夠發布成c s應用程式,也...