資料專案生命週期的7個步驟 在業務中應用AI

2021-10-22 19:28:40 字數 3754 閱讀 1245

ai是當前科技領域中的熱門話題,同時發展到今天,無論是業務擴充套件還是相關資料安全,企業資料資產及其價值也成為企業運營中的明星業務。那麼如何在企業資料專案中利用ai技術,則成為讓企業和相關人員最激動最有興趣的亮點了。

我們要強調一下ai的乙個本質特點,ai並不是it,ai的使用與傳統軟體的使用也大相徑庭。究其根源,傳統軟體往往是確定性的技術,而ai是一項不確定性的、需要考慮概率統計的技術。

在資料中利用ai演算法發現價值的過程是乙個具有挑戰性且通常很耗時的工作。雖然乙個非技術背景的負責人或執行者在專案執行過程中不必掌握如何清理資料、編寫python或針對演算法引數進行優化調整等這樣的技術細節,但他們必須清晰理解整個專案過程各個階段的定義和目標,只有這樣他們才能幫助業務專家和資料科學家在這個充滿實驗性質的過程中發現企業業務資料的最大價值。

目前,國外相關研究已經清楚描述了ai資料下面的七個階段,但是ai技術有不確定和概率統計特性,同時企業資料也需要有認識過程,因此在資料專案中使用ai技術在按這七個階段執行時往往還需要遵循這樣的規律(參照下圖):專案各個階段迴圈速度很快,而且階段之間經常會有迭代迴圈操作,為了乙個中間結果經常會從乙個階段(未完成)跳到下一階段,如圖所示,專案週期中的步驟1和2(業務理解和資料理解)以及步驟4和5(資料預處理和建模)經常是並行而不是序列發生。

下面我們詳細分解ai資料專案週期中的七個階段任務:

一、業務理解階段

1、目標

確定該資料ai專案的最終業務目標,以及為該專案分配的資源。尋找諸如以下問題的答案:「專案追求的最終結果是什麼?」、「 ai真的是完成該工作的正確工具嗎?」、「這個潛在的ai專案中可測量和戰略價值到底是什麼?」等。

2、挑戰

為企業尋找合理且可達到的目標機會,盡量避免因高估ai的能力而好高騖遠,清晰認識到預期此類專案具有較長週期的迭代時間以及企業為此需要通過各種途徑建立相關技能和競爭力,這樣才能真正將ai技術融入企業日常業務中。

3、參與角色

i. 高層決策者

ii. 首席資料科學家

iii. 專案經理

iv. 相關業務專家

二、資料理解階段

1、目標

確定資料的可訪問性和潛在價值,尋找諸如以下問題的答案:「可以利用現有的資料資產就能實現我們定義的業務目標嗎?」,或者「使用這些資料是否存在潛在挑戰,或者是否有機會以新的方式使用這些資料來實現期望的業務成果?」等。

2、挑戰

從資料中獲取最**值,為了達到這個目的需要相關業務專家和資料科學家一起研究資料,以確定諸如訪問資料的方式、如何優化資料以及哪些功能可能對最終業務目標具有最**值。

3、參與角色

i. 首席資料科學家

ii. 專案經理

iii. 相關業務專家

三、評估專案資源需求階段

1、目標

評估和確定專案成功進行所要求的資源,這個工作包括額外的預算、對人員的專門培訓、要求相關業務專家加入專案團隊、或者需要訪問新的資料系統。

2、挑戰

讓高層決策者清晰明白實際落地的ai專案存在不可避免的高複雜性和不斷變化的需求(尤其是對於那些以前沒有類似資料專案的企業的決策者)。

3、參與角色

i. 高層決策者

ii. 首席資料科學家

iii. 專案經理

iv. 相關業務專家

四、資料預處理階段

1、目標

訪問、清理和規範資料是資料分析工作成功的關鍵前提。資料分析團隊從該過程中確定可提取的資料特徵,以確保可提取資料來源能更好地起到決策和**作用。

2、挑戰

資料科學家如何與決策者和業務專家講清楚資料專案的困難/挑戰和相關成本,這些挑戰和成本通常是巨大的(尤其是在比較傳統、之前幾乎沒有類似資料專案的企業看來)。如果在該階段得出可以輸入的資料來源無論從數量還是質量都不能滿足專案需求的結論,則一定要確定該專案不可行。

3、參與角色

i. 高層決策者

ii. 首席資料科學家

iii. 資料分析處理團隊

iv. 相關業務專家

五、建模階段

1、目標

在ai模型的資料輸入和資料輸出之間建立關聯關係,對資料和演算法進行迭代優化以達到專案預期的業務目標。

2、挑戰

核心工作是在資料處理,資料理解和業務理解之間不停迴圈迭代以優化模型,這裡的關鍵是需要相關業務專家為ai模型的假設和之後的模型訓練過程提供精準的建議。

3、參與角色

i. 首席資料科學家

ii. 資料分析處理團隊

iii. 相關業務專家

iv. 專案經理

六、評估階段

1、目標

確定我們的資料資產和產生的ai模型是否滿足專案設定的預期,這也經常需要在專案週期階段1、2、3、4或5之間多次反覆迴圈,根據上次結果和預期之間的差距,優化輸入資料來源、模型及相關引數進行迭代工作

2、挑戰

因為資料專案的衡量標準很難清晰量化,評估階段是乙個巨大的挑戰,為了確保此階段能夠順利執行,讓高層決策者和相關業務專家積極參與,制定出合理的評估標準並達到預期效果是關鍵,這樣才能更有信心進入專案最終的部署實施階段。

3、參與角色

i. 高層決策者

ii. 首席資料科學家

iii. 專案經理

iv. 相關業務專家

七、部署階段

1、目標

將ai模型及應用程式成功整合到企業現有業務流程中,以業務效果為最終衡量標準。

2、挑戰

培訓企業業務人員高效使用新的ai應用,這是乙個不間斷維護並優化模型的持續過程,以適應業務的不斷變化。

3、參與角色

i. 首席資料科學家

ii. 資料分析處理團隊

iii. 專案經理

最後,需要再強調一下ai資料專案週期中的步驟可以按以上七個階段順序思考設計,但是在真正專案實際部署實施中並不總是嚴格遵循這樣的序列順序。例如,在資料預處理的階段,團隊可能會發現新問題而決定「退一步」去更深入了解相關業務,這樣就還需要提出額外的資源需求(譬如資料需要密集且及時的清理工作,意味著更多的人員、時間和其他資源需求);同樣,在評估階段,為了驗證結果或者根據專案實際情況,極大可能會在真正部署解決方案之前返回到資料理解等階段。

關於全息網御:全息網御是行為資料驅動資訊保安的領航者,通過其特有的專利技術系統性融合了ng-dlp、ueba、ng-siem、casb四項先進技術,結合機器學習(人工智慧),發現並實時重構網路中不可見的」使用者-裝置-資料」互動關係,推出以使用者行為為核心的資訊保安風險感知平台。為企業的資訊保安管理提供無感知、無死角的智慧型追溯系統,高效精準的審計過去、監控現在、防患未來,極大提高it安全運維和安全人員響應事故、抓取證據鏈、追責去責無責、恢復it系統的能力和效率。

數倉建設生命週期 建設資料倉儲7個步驟

成功實施資料倉儲專案的七個步驟 建立乙個資料倉儲並不是乙個簡單的任務,不應該由乙個人單獨完成。由於資料倉儲最佳結合了業務慣例 和資訊系統技術,因此,乙個成功的資料倉儲實施需要這兩方面的不斷協調,以均衡其所有的需要,要求,任務和成果。我很樂意與大家分享我在規劃和管理任何資料庫專案時採用的方法,這些資料...

專案開發的生命週期

1 需求分析 確定自己要開發哪些模組 2 需求設計 概要設計 資料庫設計 架構設計 mvc 三層架構 選型 設計系統的部署結構 設計專案的規範文件 詳細設計 設計類,介面規範 3 開發實現 4 測試 測試 發現錯誤 黑盒測試 測試輸入資料,與響應的資料 白盒測試 測試專案的執行流程,內部結構,演算法...

Activity類的7個生命週期方法

1 oncreat 當activity第一次被建立時呼叫,我們可以在這裡進行初始化操作。2 onstart 在 activity即將對使用者可見時呼叫。3 onrestart 當activity從stopped狀態啟動時會呼叫這個方法,後面總是呼叫onstart 方法 4 onresume 在即將於...