文字資料視覺化中一些概念

2021-10-05 23:00:13 字數 1573 閱讀 1621

詞云

詞云是乙個自動化的文字視覺化工具。

詞云的特點:1、自動提取高頻詞;2、呈現高頻詞;3、字型大小體現單詞出現的次數。

文字視覺化的重要意義:在於幫助使用者快速地完成大量文字閱讀和理解,並從中獲取重要的資訊。

文字資料:比如:**、報紙、網頁等

應用場景:電子商務、社交計算、商業智慧型、使用者體驗、**分析、公共關係

文字視覺化的基本任務

1、文字內容視覺化:總結展現文字中的內容;展現文字所包含的情感;輔助大規模文字資料集的瀏覽。

2、文字關係視覺化:展現文字檔案之間的關係;展現檔案內容的內在聯絡。

文字視覺化的流程

上下文一致的詞云技術

語義相關或者相近的詞總會出現在相近位置

文字弧圍的螺線:文件中的句子

內部的單詞:文件中的單詞

字型、顏色:詞頻

位置:詞的出現

文字指紋

揭示特徵的分布規律;將特徵用一系列畫素圖來表示

文字特徵透鏡

用於視覺化乙個文件集合中文字特徵在不同粒度下的分布情況。

conceptvector技術

利用單詞在向量表達上的相似性來構建詞典,或者說概念,以此來幫助使用者檢索和分析相關的文件。

時序詞云

1、對文件集合進行時間劃分

2、對文件按時間段進行視覺化

3、結合交換技術

主題河流themeriver

橫軸:時間軸

每個顏色的河流:提取出來的乙個主題

河流的寬度:主題討論的熱烈程度

分類:

1、句子層面的文字關係視覺化

(1)單詞樹從句法層面呈現文字詞彙的字首關係。

單詞樹利用樹形結構來視覺化文字中的句子。

(2)短語網路

用節點鏈結圖來展示無結構文字中語義單元彼此間的關係。

節點:詞或者短語

邊:使用者指定的關係

箭頭:關係的有向性

邊的寬度:關係的頻率

(3)句子樹sententree

文件層面的文字關係視覺化

星系檢視

將每個文件看作一顆星星;將文件投影成點集;點與點之間距離與文件主題相似性成正比。

主題地貌

用等高線展現相似文件的分布;

山體高度:文件位置分布的疏密程度

等高線和顏色;文字分布的密度

文件越相似,則點分布越密集

基於範例的大文字集合投影

新聞地圖

jigsaw(多協同檢視)

地理資訊視覺化中一些簡單概念

地理空間資料 描述的是物件在空間中位置和屬性。如 乙個餐廳的地理位置和評分。特點 1 真實的人類生活空間 2 由移動裝置和感測器產生。等角度地圖投影 保證了投影面上任意三點之間的線段夾角在投影角前後保持不變。著名的方法 墨卡托投影 正軸等角圓柱投影 缺點 面積變形明顯。等面積投影 著名的方法 亞爾勃...

文字資料視覺化 練習

coding utf 8 matplotlib是乙個 python 的 2d數學繪相簿 安裝 pip install matplotlib import matplotlib.pyplot as plt jieba中文分詞庫 安裝 pip install jieba import jieba wor...

大資料視覺化(六)文字資料視覺化

在於利用視覺化技術刻畫文字和文件,將其中的資訊直觀的呈現。對文字的理解需求分為 詞彙級 語法級和語義級。詞彙級使用各類分詞演算法,而語法級使用一些句法分析演算法,語義級則使用主題抽取演算法。文字資料類別分為 單文字,文件集合,時序文字。文字視覺化的基本流程 原始文字 文字資訊挖掘 文字預處理 文字特...