大資料分析本身的工業化

2021-09-23 06:58:20 字數 1807 閱讀 5080

如何實現資料分析的工業化?

為了更好地利用大資料的體量、速度和多樣性,讓大資料為自己服務,企業需要流程、結構和透明度,而工業化提供了這三樣東西。如果你真的想從資料中提取價值,並使你的公司像一台潤滑效果良好的機器那樣順暢運轉,你必須具備規模化的能力,但規模化的能力是大資料最大的難題之一。

只要那些流程的設計和實施做到了著眼全域性而非各自為政,當分析得到了帶動和長期持續下去的保證時,所謂的「工業化」便已成形。而這就是所謂的分析運維(analytics ops),在資料科學領域又被稱作為開發運維(dev ops)。

顧名思義,工業化意味著自動化,能夠實現事半功倍的效果。以前,農民用牛犁一塊地需要花費幾天時間,但現在用拖拉機只需要幾個小時。同樣,現在企業可以也用先進的演算法「耕耘」大片的「資料田地」。把見解作為可交付產品的工廠也許是對此更恰當的比喻。例如,設想有一條流水線,使你可以進行資料的收集、整理、分類,準備好供建模、分析和產生見解所用。這就是我們正在邁進的方向嗎?是的。這是必要的嗎?沒錯。

原因在於,為了更好地利用大資料的體量、速度和多樣性,讓大資料為自己服務,企業需要流程、結構和透明度,而工業化提供了這三樣東西。如果你真的想從資料中提取價值,並使你的公司像一台潤滑效果良好的機器那樣順暢運轉,你必須具備規模化的能力,但規模化的能力是大資料最大的難題之一。工業化是解決之道。工業化的基本定義就是堪稱革命性的規模化能力,而規模化幾乎總是意味著使向來手動完成的工作自動化。流水線就是明顯的例子。

流水線方法的基礎是建立一套支援資料分析的流程。這是一種協作的方法,需要跨職能合作和c級高管努力推動公司上下參與其中。但從資料中獲取見解的流程如何實現自動化?

讓我們來看看製造業的工業化,這是流程的最初起源。多年來,生產經理強調質量控制和流程改進。如果想使資料分析工業化,就需要對資料分析及受其驅動的經營活動採取同樣的質量控制措施。你制定的任何解決方案都應該考慮以下幾點:

1. 資料管理這裡涉及的考慮是,資料科學家在建立分析資料集時,應該確保資料一脈相承,提供適當的治理,避免陷入不可識別資產的資料沼澤。應同樣對待的還有文件、記錄、**、資料樣本、修改日誌,以及確保資產整理妥當,可隨時用於消費。

2.開發這裡指的是將跟視覺化和資料瀏覽介面一起整合進同一工作台的建模工具。再有就是知識管理,要通過這種方法來儲存你正在建立的模型的資訊。

3.部署:這部分涉及到生產模型的建立,而這些模型將在以後用在經營活動中。對此需要模型管理,比如維護版本歷史資訊,訓練資料集以供審核,以及推廣模型的相關流程。還應該著重強調效率和受控執行。資料平台為分析處理的工作提供了很多選擇,但必須保證模型被部署到另乙個平台上時,業務邏輯依然如昔。

4.維護:作業系統堪稱流程的「書立」。你最初從應用系統獲得資料,你的分析則是最終交付產品,將被應用和操作流程所使用。由於這些流程所固有的操作依賴性,因此應該實行嚴格的路徑規定,包括為所有的活動建立操作日誌,以及在發生模型偏移時記錄異常情況。

隨著資料和分析工具的激增,企業將繼續尋求龐大資料集的力量,因為有資料就有見解,有見解就有價值。但想要做到這一點,就必須把工業化的準則融入到資料分析中。

只要那些流程的設計和實施做到了著眼全域性而非各自為政,當分析得到了帶動和長期持續下去的保證時,所謂的「工業化」便已成形。而這就是所謂的分析運維(analytics ops),在資料科學領域又被稱作為開發運維(dev ops)。憑藉資料分析的工業化改造,只要處理速度達到了一定水平,企業就能降低成本,加快創新,為市場帶來新的能力。

工業化的軟體交付

根據ian thomas的研究 一次又一次,it技術始終未能交付預期價值。ian認為我們所有人 都需要承認這些趨勢,並從其他成熟行業的工業化程序中汲取教訓。在詳細闡述早期工作的基礎上,ian thomas討論了軟體交付工業化所需要解決的問題及其解決方法。ian首先定義了他對平台 平台即服務,簡稱pa...

「工業大資料」之「華山論劍」 也談工業大資料分析

工業大資料,伴隨著 大資料 雲計算 物聯網 人工智慧 等概念的興起而逐漸火了起來。隨之,工業界 投資界 學術界,各界均把目光投向 工業大資料 國外火,國內也火了起來。但 工業大資料 畢竟不是 商業大資料 也不是 金融大資料 似乎也不是純粹的 網際網路大資料 工業大資料 分析的主流方法和思路是什麼?本...

錢納裡的工業化階段理論

克拉克 c.clark,1940 1 認為不同產業間存在相對的收入差異,而這種差異會促進勞動力向能夠獲得更高收入的部門移動。隨著人均國民收入水平的不斷提高,勞動力先由第一產業向第二產業轉移,由於產業間收入差異的存在,顯然這部分轉移人口會得到更高的收入,當人均收入水平進一步提高後,勞動力又會由第二產業...