資料科學之基礎概念

2022-03-29 20:26:52 字數 1147 閱讀 3604

概念模型:使用者視角—各種文件,業務流程圖,

er圖等

邏輯模型:資料科學家視角—關係模型,層次模型,網狀模型

key-value,

key-document,

key-column和圖模型等,常用格式:關係表,

csv,

json,

xml,

rdf等

物理模型:機器視角

--索引,分割槽,物化檢視,事務等

按結構化程度分

:結構化資料,半結構化資料,非結構化資料。

按資料的加工程度分:零次資料,一次資料,二次資料,三次資料

按資料的抽象或封裝程度分:資料,元資料,資料物件

內涵:也就是一種大資料現象

特徵:volume(資料量大),

variety(型別多),

value(價值密度低),

velocity(速度快)

資料化,資料柔術,資料改寫,資料打磨,資料洞見,資料分析式思維模式,資料驅動,資料密集型,資料空間,關聯資料

大資料及其運動規律的揭示

從資料到智慧型的轉化

資料洞見

資料業務化

資料驅動型決策支援

資料產品研發

資料生態系統建設

數學與統計知識

領域實務知識

黑客精神與技能

資料科學的理論基礎

資料預處理

資料計算

資料管理

資料化—資料(預)處理—探索性分析—資料分析與洞見—結果展示

--提供資料產品

資產原則

dikuw原則:

data,

information,

knowledge,

understanding,

wisdom

黑客原則

協同原則

從簡原則

經驗原則

第四正規化原則

資料業務化原則

資料驅動原則

資料預處理原則

資料探勘之基礎概念

任務 根據其他屬性的值,特定屬性的值。通常資料探勘的任務 描述任務 匯出概括資料中潛聯絡的模式 四種主要的資料探勘任務 建模 關聯分析 聚類分析 異常檢測 建模 分類 用於 離散的目標變數 回歸 用於 連續的目標變數 關聯分析 用於發現描述資料中強關聯特徵的模式。異常檢測 識別器特徵顯著不同於其他資...

資料科學基礎篇

本文不定期更新,記錄資料科學的基礎,主要內容為python基礎,numpy pandas pytorch tensorflow等基礎知識,作者在自學過程中做筆記用。1 python copy與view python numpy的copy和view 1 b a 沒有新物件被建立,b與a只是乙個ndar...

資料探勘之基礎概念二

模型的過擬合 分類模型的誤差大致分為兩張 訓練誤差 再代入誤差或表現誤差 泛化誤差 模型擬合不足 決策樹很小,訓練和檢驗誤差都很大 模型過分擬合 樹的模型變得太大,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,這種現象叫做過分擬合 奧卡姆剃刀 給定兩個具有相同泛化誤差的模型,較簡單的模型比較複雜的...