6.1文字資料在大資料中的應用及提取
6.1.1文字在大資料的應用
一般把文字的理解分成**:詞彙級、語法級和語義級
文字資料類別一般包括單文字、文件集合和時序文字資料三大類。
6.1.2使用網路爬蟲提取文字資料
網路爬蟲,也稱網路蜘蛛。網路爬蟲就是根據網頁的位址(url)來尋找網頁的。
6.2文字資訊分析
6.2.1 向量空間模型
1、詞袋模型
2、tf-idf
6.22 主題抽取
文字主題的抽取演算法大致可分為兩類:基於貝葉斯的概率模型和基於矩陣分解的非概率模型
6.3文字資料視覺化
6.3.1 文字內容視覺化
(1)標籤雲
文件散文檔散的使用方法如下:
①將乙個單詞作為中心點
②將整個文章內的詞語呈現在乙個放射式層次圓環中,外層的詞是內層詞的下義詞。
時序文字視覺化
主題河流
①顏色②寬度
文字流故事流
文字視覺化
文字弧的特性如下:
①用一條螺旋線表示一篇文章,螺旋線的首尾對應著文章的首尾,文章的詞語有序地分布在螺旋線上。
②若詞語在整篇文章**現的比較頻繁,則靠近畫布的中心區域分布。
③若詞語只是在區域性出現的比較頻繁,則靠近螺旋線分布。
④字型的大小和顏色深度代表著詞語的出現頻率。
6.3.2 文字關係視覺化
1.基於圖的文字關係視覺化
(1)詞語樹
(2)短語網路
2.文件間關係視覺化
(1)星系檢視
(2)文件集抽樣投影
6.3.3
文字多特徵資訊視覺化
6.4實際案例
6.4.1詞雲圖
6.4.2主題河流圖
6.4.3關係圖
mysql第六章 第六章 mysql日誌
第六章 mysql日誌 一 錯誤日誌 錯誤日誌的預設存放路徑是 mysql 存放資料的地方 hostname.err 1.修改錯誤日誌存放路徑 mysqld log error data mysql mysql.log 2.檢視配置命令 show variables like log error 3...
第六章 指標
1.多位元組資料的位址是在最左邊還是最右邊的位置,不同的機器有不同的規定,這也正是大端和小端的區別,位址也要遵從邊界對齊 2.高階語言的乙個特性就是通過名字而不是位址來訪問記憶體的位置,但是硬體仍然通過位址訪問記憶體位置 3.記憶體中的變數都是義序列的0或1的位,他們可以被解釋為整數或者其他,這取決...
第六章總結
6.1 使用滑鼠 6.1.1 滑鼠時間和滑鼠訊息 根據使用者操作滑鼠時滑鼠的位置,滑鼠訊息分為兩類 客戶區滑鼠訊息和非客戶區滑鼠訊息。1.客戶去滑鼠訊息 2.當滑鼠游標位於視窗的使用者區時,將生成客戶滑鼠訊息。滑鼠訊息和鍵盤訊息有所不同,windows 只將鍵盤有訊息傳送給具有輸入極點的視窗,但滑鼠...