資料視覺化第六章

2021-10-10 11:22:59 字數 916 閱讀 3889

6.1文字資料在大資料中的應用及提取

6.1.1文字在大資料的應用

一般把文字的理解分成**:詞彙級、語法級和語義級

文字資料類別一般包括單文字、文件集合和時序文字資料三大類。

6.1.2使用網路爬蟲提取文字資料

網路爬蟲,也稱網路蜘蛛。網路爬蟲就是根據網頁的位址(url)來尋找網頁的。

6.2文字資訊分析

6.2.1 向量空間模型

1、詞袋模型

2、tf-idf

6.22 主題抽取

文字主題的抽取演算法大致可分為兩類:基於貝葉斯的概率模型和基於矩陣分解的非概率模型

6.3文字資料視覺化

6.3.1 文字內容視覺化

(1)標籤雲

文件散文檔散的使用方法如下:

①將乙個單詞作為中心點

②將整個文章內的詞語呈現在乙個放射式層次圓環中,外層的詞是內層詞的下義詞。

時序文字視覺化

主題河流

①顏色②寬度

文字流故事流

文字視覺化

文字弧的特性如下:

①用一條螺旋線表示一篇文章,螺旋線的首尾對應著文章的首尾,文章的詞語有序地分布在螺旋線上。

②若詞語在整篇文章**現的比較頻繁,則靠近畫布的中心區域分布。

③若詞語只是在區域性出現的比較頻繁,則靠近螺旋線分布。

④字型的大小和顏色深度代表著詞語的出現頻率。

6.3.2 文字關係視覺化

1.基於圖的文字關係視覺化

(1)詞語樹

(2)短語網路

2.文件間關係視覺化

(1)星系檢視

(2)文件集抽樣投影

6.3.3

文字多特徵資訊視覺化

6.4實際案例

6.4.1詞雲圖

6.4.2主題河流圖

6.4.3關係圖

mysql第六章 第六章 mysql日誌

第六章 mysql日誌 一 錯誤日誌 錯誤日誌的預設存放路徑是 mysql 存放資料的地方 hostname.err 1.修改錯誤日誌存放路徑 mysqld log error data mysql mysql.log 2.檢視配置命令 show variables like log error 3...

第六章 指標

1.多位元組資料的位址是在最左邊還是最右邊的位置,不同的機器有不同的規定,這也正是大端和小端的區別,位址也要遵從邊界對齊 2.高階語言的乙個特性就是通過名字而不是位址來訪問記憶體的位置,但是硬體仍然通過位址訪問記憶體位置 3.記憶體中的變數都是義序列的0或1的位,他們可以被解釋為整數或者其他,這取決...

第六章總結

6.1 使用滑鼠 6.1.1 滑鼠時間和滑鼠訊息 根據使用者操作滑鼠時滑鼠的位置,滑鼠訊息分為兩類 客戶區滑鼠訊息和非客戶區滑鼠訊息。1.客戶去滑鼠訊息 2.當滑鼠游標位於視窗的使用者區時,將生成客戶滑鼠訊息。滑鼠訊息和鍵盤訊息有所不同,windows 只將鍵盤有訊息傳送給具有輸入極點的視窗,但滑鼠...