資料科學之路

2022-09-13 06:21:17 字數 1670 閱讀 7299

先放一張技術路線圖,然後每天更新一點東西,用於複習和鞏固

1.基礎部分

a.矩陣和線性代數基礎              

矩陣是什麼? 數學上,乙個m×n的矩陣是乙個由m行n列元素排列成的矩形陣列。

矩陣的加法,要求兩個矩陣或者是多個矩陣,要求所有的矩陣的列和行都是一樣的,例如都是3x2的矩陣,或者是5x8矩陣。矩陣的加法就是將對應位置的數值相加即可。

矩陣的乘法,就是使用數字和矩陣相乘,矩陣的乘法對矩陣沒有要求。運算法則就是將乘數與矩陣中每乙個數字相乘即可。

乙個m行n列的矩陣與乙個n行q列的矩陣相乘,最後得到的就是乙個m行q列的矩陣。

矩陣的逆,對於乙個m行n列的矩陣a,如果存在a-1,滿足a*a-1=i(i是單位矩陣),則表示a-1是a的逆。

b.雜湊函式和二叉樹

hash函式是雜湊化元素的一種函式,種類很多,簡單如i*31就是乙個hash函式。 

二叉樹是一種資料結構,有哈夫曼樹,紅黑樹等變種。

c.資料庫基礎:sql語法,acid,資料庫的正規化

d.資料庫並表計算:交,並,外聯等

e。cap理論:分布式資料庫在一致性(consistency),可用性(**ailability),分割槽容錯性(partiton

tolerance)無法完全保證。這是因為,分割槽如果出錯,為保證可用性,乙個區會變動資料提供要求資料,另乙個區無法保證一致性了。現在分布式資料庫主要用在sns等領域,對於一致性要求較低。

f.tabular data(表列資料):不太懂,求大神指導。

g.資料框和序列:這是numpy包重要的資料結構,方便資料處理和清洗工作。

h.分庫分表(sharding):資料庫內部,為了讀寫分離,優化。

橫向分割槽:就是橫著來分割槽了,舉例來說明一下,假如有100w條資料,分成十份,前10w條資料放到第乙個分割槽,第二個10w條資料放到第二個分割槽,依此類推。

縱向分割槽:就是豎來分割槽了,舉例來說明,在設計使用者表的時候,開始的時候沒有考慮好,而把個人的所有資訊都放到了一張表裡面去,這樣這個表裡面就會有比較大的字段,如個人簡介,而這些簡介呢,也許不會有好多人去看,所以等到有人要看的時候,在去查詢,分表的時候,可以把這樣的大字段,分開來。

range 分割槽:這種模式允許將資料劃分不同範圍。例如可以將乙個表通過年份劃分成若干個分割槽。

list分割槽:這種模式允許系統通過預定義的列表的值來對資料進行分割。

hash分割槽:這中模式允許通過對錶的乙個或多個列的hash key進行計算,最後通過這個hash碼不同數值對應的資料區域進行分割槽。例如可以建立乙個對錶主鍵進行分割槽的表。

子分割槽是分割槽表中每個分割槽的再次分割,子分割槽既可以使用hash希分割槽,也可以使用key分割槽。

j.多維資料模型:因子分析,pca(主成分分析),多元回歸等

k.etl(抽取,轉換,載入):一般可以使用panda包來完成,也可以使用專業工具。

l.報告,bi,分析: ppt技能,tableau,finebi,excel,spss資料分析等

m.json&xml(資料交換格式):json,xml方便物件資料,在各種平台間相互交換

n.nosql(非關係型資料庫):redis,mongodb等,面對web應用提供檔案儲存服務的資料庫

o.regex(正規表示式):這裡面太多內容.

p.vendor landscape:大資料展示的乙個工具(不了解)

q.env setup:安卓的編譯指令碼(不懂)

資料科學之路 3

3.程式設計 a.python基礎 b.excel基礎 c.r studio基礎 d.表示式 e.spss f.變數 g.向量 h.矩陣 i.陣列 l.因子 m.陣列 n.資料框 o.讀取csv檔案 p.讀取原生檔案 q。資料抽取 r.使用資料框處理資料 s.函式 t.函式 u.因子分析 w.安裝包...

資料科學家的成長之路

背景 平凡之路 凡事預則立,不預則廢。結合國內外的行業現狀,和資料科學領域的培養模式,我把資料科學的學習過程分成以下四個級別 入門 初級 中級 高階。吃瓜群眾就是喜歡分級,哈哈哈 高階之上,我認為還有乙個級別 高階,強調跨學科的綜合能力,以及團隊協作能力。由於我不是科班出身,學得不夠系統,所以現在的...

資料科學 什麼是資料科學?

資料是現實世界運轉留下的痕跡。這些痕跡如何展示出來,則取決於我們採用什麼樣的資料收集和樣本採集方法。將具象的資料轉化為抽象的資料,過程是絕對主觀的。統計推斷 關注的是如何從隨機過程產生的資料中提取資訊。關於建模資料即資訊,不需要模型,了解相關性就夠了。anderson 這是錯誤的想法。什麼是模型 模...