詞云
詞云是乙個自動化的文字視覺化工具。
詞云的特點:1、自動提取高頻詞;2、呈現高頻詞;3、字型大小體現單詞出現的次數。
文字視覺化的重要意義:在於幫助使用者快速地完成大量文字閱讀和理解,並從中獲取重要的資訊。
文字資料:比如:**、報紙、網頁等
應用場景:電子商務、社交計算、商業智慧型、使用者體驗、**分析、公共關係
文字視覺化的基本任務
1、文字內容視覺化:總結展現文字中的內容;展現文字所包含的情感;輔助大規模文字資料集的瀏覽。
2、文字關係視覺化:展現文字檔案之間的關係;展現檔案內容的內在聯絡。
文字視覺化的流程
上下文一致的詞云技術
語義相關或者相近的詞總會出現在相近位置
文字弧圍的螺線:文件中的句子
內部的單詞:文件中的單詞
字型、顏色:詞頻
位置:詞的出現
文字指紋
揭示特徵的分布規律;將特徵用一系列畫素圖來表示
文字特徵透鏡
用於視覺化乙個文件集合中文字特徵在不同粒度下的分布情況。
conceptvector技術
利用單詞在向量表達上的相似性來構建詞典,或者說概念,以此來幫助使用者檢索和分析相關的文件。
時序詞云
1、對文件集合進行時間劃分
2、對文件按時間段進行視覺化
3、結合交換技術
主題河流themeriver
橫軸:時間軸
每個顏色的河流:提取出來的乙個主題
河流的寬度:主題討論的熱烈程度
分類:
1、句子層面的文字關係視覺化
(1)單詞樹從句法層面呈現文字詞彙的字首關係。
單詞樹利用樹形結構來視覺化文字中的句子。
(2)短語網路
用節點鏈結圖來展示無結構文字中語義單元彼此間的關係。
節點:詞或者短語
邊:使用者指定的關係
箭頭:關係的有向性
邊的寬度:關係的頻率
(3)句子樹sententree
文件層面的文字關係視覺化
星系檢視
將每個文件看作一顆星星;將文件投影成點集;點與點之間距離與文件主題相似性成正比。
主題地貌
用等高線展現相似文件的分布;
山體高度:文件位置分布的疏密程度
等高線和顏色;文字分布的密度
文件越相似,則點分布越密集
基於範例的大文字集合投影
新聞地圖
jigsaw(多協同檢視)
地理資訊視覺化中一些簡單概念
地理空間資料 描述的是物件在空間中位置和屬性。如 乙個餐廳的地理位置和評分。特點 1 真實的人類生活空間 2 由移動裝置和感測器產生。等角度地圖投影 保證了投影面上任意三點之間的線段夾角在投影角前後保持不變。著名的方法 墨卡托投影 正軸等角圓柱投影 缺點 面積變形明顯。等面積投影 著名的方法 亞爾勃...
文字資料視覺化 練習
coding utf 8 matplotlib是乙個 python 的 2d數學繪相簿 安裝 pip install matplotlib import matplotlib.pyplot as plt jieba中文分詞庫 安裝 pip install jieba import jieba wor...
大資料視覺化(六)文字資料視覺化
在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。文字視覺化的基本流程 原始文字 文字資訊挖掘 文字預處理 文字特...