短文 Spark危機與機遇雜談

2021-08-21 10:42:37 字數 1219 閱讀 7171

昨天發了一篇文章spark團隊新作mlflow 解決了什麼問題 描述了我對mlflow的一些看法,現在想來,spark團隊是非常聰明的,ai同學都有自己的社群,自己的生態,spark則是在工程研發群體具有很大的影響力,而在ai領域並沒有太大號召力。所以它其實是沒辦法通過乙個顛覆性的東西去讓ai同學轉移過來的,而mlflow並沒有改變ai同學的原有習慣和流程,他提供了一些輔助工具和標準,解決了一些痛點,慢慢滲透,從而實現慢慢轉型,當然,最後也完全可能也掀不起什麼波瀾。

第乙個便是ai浪潮崛起,對spark即是危機也是機遇。db現在一直宣稱自己是一家ai公司,不過你可能會好奇,為什麼spark背後的db公司不好好固守資料處理方面的優勢,而不斷嘗試轉型ai呢? 刨去整個資本市場和技術浪潮不談,其實最大的問題是未來必然是ai框架倒推資料處理框架。ai框架很可能衍生出適合自己的資料處理框架,比如tensorflow,對tf.data 進行了很大的增強,方便做資料處理。如果spark不主動出擊,未來會很被動。

第二個就是流式了,隨著流式時代的來臨, 而在此之前spark 在流式領域一直不緊不慢,加固在批處理方面的優勢的同時也喪失了流領域的先機,很多公司(尤其是雲公司,比如阿里雲,華為等)都轉向flink。 這也使得spark在傳統資料處理領域不斷遭受新的挑戰。(我在16年的時候,就不斷強調流式計算的重要性,比如這篇文章資料天生就是流式的,為此還專門建立了乙個專題,感興趣的同學可以看看)

spark還提了乙個 hydrogen 設計,從而使得spark能夠更好的結合深度學習框架。從某種角度而言是順應形勢,但其實是在轉型ai的情況下不得已而為之。

spark 依然是我用過最好用的工具,依然有最好的生態。基於它之上,做很多事情會變得很輕鬆。

其實我覺得和ai進行適配,不一定是朝著整合ai框架的方向發展。前面我們提到未來必然是ai框架倒推資料處理框架,只要讓spark能夠更好的為ai做資料預處理,成為事實標準,並且適配主流ai框架,那麼spark必然會有乙個新的護城河。最簡單的例子,spark 2.3 已經支援處理了,但是其實還是蠻多問題的,是可以做的更好的,比如是否提供一些方法直接把一張讀取成乙個hwn的張量(這種是可以直接餵給常見的深度學習演算法的)。另外能不能支援張量輸出? 總之最好的策略其實是壓縮ai框架的邊界,保證spark在資料處理方面的絕對壟斷地位。我在實際使用中發現,很多資料預處理,spark目前做起來是不方便的,非得用ai演算法庫的函式。

當然,還有就是加速流的發展,並且加大這方面的宣傳和投入,確定在資料處理第二階段依然能夠保持領先優勢。

華科考研機試題 最長 最短文本

輸入多行字串,請按照原文本中的順序輸出其中最短和最長的字串,如果最短和最長的字串不止乙個,請全部輸出。1.輸入所有字串 有空格不另算字串 2.將char 字串轉換成string型。3.由於map是自動排好序的,所以begin和end可以取到最小的位址和最大的後乙個位址。map int,list m ...

華科考研機試題 最長 最短文本

輸入多行字串,請按照原文本中的順序輸出其中最短和最長的字串,如果最短和最長的字串不止乙個,請全部輸出。1.輸入所有字串 有空格不另算字串 2.將char 字串轉換成string型。3.由於map是自動排好序的,所以begin和end可以取到最小的位址和最大的後乙個位址。map m 構造map m s...

金融危機 經濟危機與全球的裁員風暴

金融危機 經濟危機與全球的裁員風暴 金融危機下的裁員風暴 編者按 隨著全球金融危機的逐步惡化,雅虎 渣打 大摩 通用等眾多世界知名企業紛紛出現裁員風波 通用汽車歐洲公司將削減至少10 的人力成本 通用汽車歐洲市場總裁福斯特 carl peter forster 日前表示,通用汽車為應對汽車銷售大幅下...