在大資料行業,懂演算法的大資料工程師是非常有核心競爭力的,之前科多大資料的一位培訓學員面試之後,回來和我們分享,懂得演算法在面試過程中是非常加分的,即便演算法的底層邏輯不是很了解,但一定要懂得具體應用,本文詳解了資料分析中經典的幾大演算法,輔助大家更好的學習。
演算法一:快速排序法
快速排序是由東尼 ·
霍爾所發展的一種排序演算法。在平均狀況下,排序 n
個專案要ο(n log
n) 次比較。在最壞狀況下則需要ο(n2)
次比較,但這種狀況並不常見。
事實上,快速排序通常明顯比其他ο(n log
n) 演算法更快,因為它的內部迴圈(inner
loop)可以在大部分的架構上很有效率地被實現出來。快速排序使用分治法(divide and
conquer)策略來把乙個序列(list)分為兩個子串行(sub-lists)。
演算法步驟
從數列中挑出乙個元素,稱為 「基準」(pivot),
重新排序數列,所有元素比基準值小的擺放在基準前面,所有元素比基準值大的擺在基準的後面(相同的數可以到任一邊)。在這個分割槽退出之後,該基準就處於數列的中間位置。這個稱為分割槽(partition)操作。
遞迴地(recursive)把小於基準值元素的子數列和大於基準值元素的子數列排序。
遞迴的最底部情形,是數列的大小是零或一,也就是永遠都已經被排序好了。雖然一直遞迴下去,但是這個演算法總會退出,因為在每次的迭代(iteration)中,它至少會把乙個元素擺到它最後的位置去。
演算法二:堆排序演算法
堆排序(heapsort)是指利用堆這種資料結構所設計的一種排序演算法。堆積是乙個近似完全二叉樹的結構,並同時滿足堆積的性質:即子結點的鍵值或索引總是小於(或者大於)它的父節點。
堆排序的平均時間複雜度為ο(nlogn)
演算法步驟
建立乙個堆 h[0..n-1]
把堆首(最大值)和堆尾互換
把堆的尺寸縮小 1,並呼叫
shift_down(0), 目的是把新的陣列頂端資料調整到相應位置
重複步驟2,直到堆的尺寸為
演算法三:歸併排序
歸併排序(merge
sort,台灣譯作:合併排序)是建立在歸併操作上的一種有效的排序演算法。該演算法是採用分治法(divide and
conquer)的乙個非常典型的應用。
演算法步驟
申請空間,使其大小為兩個已經排序序列之和,該空間用來存放合併後的序列
設定兩個指標,最初位置分別為兩個已經排序序列的起始位置
比較兩個指標所指向的元素,選擇相對小的元素放入到合併空間,並移動指標到下一位置
重複步驟3
直到某一指標達到序列尾
將另一串行剩下的所有元素直接複製到合併序列尾
演算法四:二分查詢演算法
二分查詢演算法是一種在有序陣列中查詢某一特定元素的搜尋演算法。搜素過程從陣列的中間元素開始,如果中間元素正好是要查詢的元素,則搜素過程結束。
如果某一特定元素大於或者小於中間元素,則在陣列大於或小於中間元素的那一半中查詢,而且跟開始一樣從中間元素開始比較。如果在某一步驟陣列
為空,則代表找不到。這種搜尋演算法每一次比較都使搜尋範圍縮小一半。折半搜尋每次把搜尋區域減少一半,時間複雜度為ο(logn)
演算法五:bfprt(線性排查)
bfprt 演算法解決的問題十分經典,即從某 n
個元素的序列中選出第 k
大(第 k
小)的元素,通過巧妙的分 析,bfprt 可以保證在最壞情況下仍為線性時間複雜度。該演算法的思想與快速排序思想相似,當然,為使得演算法在最壞情況下,依然能達到
o(n) 的時間複雜度,五位演算法作者做了精妙的處理。
演算法步驟
將n 個元素每 5
個一組,分成 n/5(上界)
組。取出每一組的中位數,任意排序方法,比如插入排序。
遞迴的呼叫 selection 演算法查詢上一步中所有中位數的中位數,設為 x,偶數個中位數的情況下設定為選取中間小的乙個。
用x 來分割陣列,設小於等於 x
的個數為 k,大於
x 的個數即為 n-k。
若i==k,返回
x;若ik,在大於x
的元素中遞迴查詢第 i-k
小的元素。 終止條件:n=1 時,返回的即是 i
小元素。
演算法六:dfs(深度優先搜尋)
深度優先搜尋演算法(depth-first-search),是搜尋演算法的一種。它沿著樹的深度遍歷樹的節點,盡可能深的搜尋樹的分
支。當節點 v
的所有邊都己被探尋過,搜尋將回溯到發現節點 v
的那條邊的起始節點。
這一過程一直進行到已發現從源節點可達的所有節點為止。如果還存在未被發 現的節點,則選擇其中乙個作為源節點並重複以上過程,整個程序反覆進行直到所有節點都被訪問為止。dfs 屬於盲目搜尋。
深度優先搜尋是圖論中的經典演算法,利用深度優先搜尋演算法可以產生目標圖的相應拓撲排序表,利用拓撲排序表可以方便的解決很多相關的圖論問題,如最大路徑問題等等。一般用堆資料結構來輔助實現
dfs 演算法。
演算法步驟:
訪問頂點v;
依次從v
的未被訪問的鄰接點出發,對圖進行深度優先遍歷;直至圖中和 v
有路徑相通的頂點都被訪問;
若此時圖中尚有頂點未被訪問,則從乙個未被訪問的頂點出發,重新進行深度優先遍歷,直到圖中所有頂點均被訪問過為止。
上述描述可能比較抽象,舉個例項:
dfs 在訪問圖中某一起始頂點 v
後,由 v
出發,訪問它的任一鄰接頂點 w1;再從
w1 出發,訪問與 w1
鄰 接但還沒有訪問過的頂點 w2;然後再從
w2 出發,進行類似的訪問,…
如此進行下去,直至到達所有的鄰接頂點都被訪問過的頂點 u
為止。接著,退回一步,退到前一次剛訪問過的頂點,看是否還有其它沒有被訪問的鄰接頂點。如果有,則訪問此頂點,之後再從此頂點出發,進行與前述類似的訪問;如果沒有,就再退回一步進行搜尋。重複上述過程,直到連通圖中所有頂點都被訪問過為止。
演算法七:bfs(廣度優先搜尋
廣度優先搜尋演算法(breadth-first-search),是一種圖形搜尋演算法。簡單的說,bfs 是從根節點開始,沿著樹 (圖)
的寬度遍歷樹 (圖)
的節點。如果所有節點均被訪問,則演算法中止。bfs
同樣屬於盲目搜尋。一般用佇列資料結構來輔助實現 bfs
演算法。演算法步驟
首先將根節點放入佇列中。
從佇列中取出第乙個節點,並檢驗它是否為目標。 如果找到目標,則結束搜尋並回傳結果。否則將它所有尚未檢驗過的直接子節點加入佇列中。
若隊列為空,表示整張圖都檢查過了——亦即圖中沒有欲搜尋的目標。結束搜尋並回傳
「找不到目標」。
重複步驟2。
演算法八:dijkstra
戴克斯特拉演算法(dijkstra』s
algorithm)是由荷蘭計算機科學家艾茲赫爾
· 戴克斯特拉提出。迪科斯徹演算法使用了廣度優先搜尋解決非負權有向圖的單源最短路徑問題,演算法最終得到乙個最短路徑樹。該演算法常用於路由演算法或者作為其他圖演算法的乙個子模組。
該演算法的輸入包含了乙個有權重的有向圖 g,以及
g 中的乙個**頂點 s。我們以
v 表示g 中所有頂點的集合。每乙個圖中的邊,都是兩個頂點所形成的有序元素對。(u, v)
表示從頂點 u
到 v 有路徑相連。我們以 e
表示 g
中所有邊的集合,而邊的權重則由權重函式 w: e → [0,
∞] 定義。
因此,w(u, v)
就是從頂點 u
到頂點 v
的非負權重(weight)。邊的權重可以想像成兩個頂點之間的距離。任兩點間路徑的權重,就是該路徑上所有邊的權重總和。已知有
v 中有頂點 s
及 t,dijkstra 演算法可以找到 s
到 t的最低權重路徑 (例如,最短路徑)。
這個演算法也可以在乙個圖中,找到從乙個頂點 s
到任何其他頂點的最短路徑。對於不含負權的有向圖,dijkstra
演算法是目前已知的最快的單源最短路徑演算法。
演算法步驟
初始時令s=,t=,t
中頂點對應的距離值,若存在,d(v0,vi)
為弧上的權值,若不存在,d(v0,vi)
為∞ 。
從t 中選取乙個其距離值為最小的頂點 w
且不在 s
中,加入 s
對其餘t
中頂點的距離值進行修改:若加進 w
作中間頂點,從 v0
到 vi
的距離值縮短,則修改此距離值,重複上述步驟 2、3,直到
s 中包含所有頂點,即 w=vi
為止
學大資料要學哪些演算法 大資料分析都有哪些常見的演算法
隨著網際網路的不斷發展,大資料分析演算法讓眾多企業在使用者分析上獲得了很大的突破。今天,我們就一起來了解一下,資料分析領域常見的演算法都有哪些。1.線性回歸 線性回歸可能是統計學和機器學習中知名和易理解的演算法之一。由於 建模主要關注小化模型的誤差,或者以可解釋性為代價來做出準確的 我們會從許多不同...
學大資料需要學哪些內容?大資料主流技術棧簡介
被廣泛關注的大資料,這幾年在國內的發展,可以說是進入了比較平穩的乙個時期,基本上企業對於技術開發人員的要求,都開始與大資料接軌。那麼學大資料需要學哪些內容,今天我們從大資料主流技術棧開始,為大家做個簡單介紹。大資料發展速度很快,對技術的需求也在不斷更新迭代,從第一代的hadoop為王,到現在的had...
學大資料分析要學資料庫sql嗎
你已經聽說過大資料分析所需的頂級技能。你知道你應該從 開始嗎?你可以獲得的最簡單,最重要的技能是sql。在開發此技能之前,你必須了解sql在大資料分析中的作用,以及為什麼每個大資料分析專家都將sql標記為對大資料分析家重要的一門。因此,讓我們 一下sql對大資料分析的重要性。sql是所有關聯式資料庫...