企業應用AI和機器學習的經驗教訓

2022-09-19 23:48:09 字數 3765 閱讀 7591

從幫助企業加速ai / ml歷程中獲得的卑微的見解。

從我的ai /機器學習歷程中學到的教訓

我最近有幸與幾位ai /機器學習專家一起參加了小組討論。 有很多偉大的問題,但大多數與如何在大型組織中最有效地建立ai /機器學習(ai / ml)有關。

這使我有機會反思自己的經驗,以幫助大型企業加速其ai /機器學習之旅,並且更具體地說,評估什麼是行得通的,也許同樣重要的是,什麼行不通的。 我將這些總結為幾個簡單的"經驗教訓",希望它們對您組織的ai / ml之旅有用。

第1課:不要讓完美成為夠用的敵人

以我的經驗,您的模型將永遠不會是完美的。 因此,請勿嘗試使其完美。 現在,請不要誤會我-模型的準確性(或適用於您的情況的任何指標)很重要,但是獲得絕對最佳的模型可能僅在kaggle比賽中起作用。

相反,您的重點應該是使模型足夠好以滿足業務需求。 事實是,幾乎所有企業都認為,要獲得乙個可以提供價值的"足夠好"的模型,要獲得完美的模型要花很長時間。 因此,我的建議非常簡單:找出對您的組織"足夠好"的內容,並專注於將模型投入生產。

第2課:建立模型只是工作量的10%

這是乙個基本但基本上未被認可的事實:如今,企業中資料科學的絕大部分時間並沒有真正花費在資料科學上。 相反,大部分時間(根據我的經驗,有90%以上的時間)都花在了其他事情上,包括:獲取資料,工程資料和功能集,解決安全問題,設定基礎架構(雲或資料中心)或 工作站,用於生產的包裝模型,以及建立devops指令碼以將完整的模型遷移到產品中……這還不是完整列表!

不幸的是,在大多數不成熟的組織(也就是說,大多數組織都認識到相對的"新穎性"或ai / ml)中,每個專案實際上都經歷了這種額外的非資料科學工作。

這有什麼大不了的嗎? 的確如此。 假設您小組的預算為100萬美元(乙個很好的整數,這使數學很容易),這意味著某人(在很多情況下是您的**資料科學家)將90%或90萬美元用於與其他任務不直接相關的任務 到您雇用他們的目的。 那是很多錢! 這不僅令人痛苦,而且體驗起來更加痛苦!

那麼,如何避免這種痛苦呢? 好吧,這導致了我的下一堂課……

第3課:秘訣:ai / ml平台

正如我之前強調的那樣,太多的專案將太多的時間花費在與ai / ml不直接相關的任務上。

解決方案:" ai / ml平台"。

首先,不要混淆" ai / ml平台"的含義。 不僅僅是雲**商提供的環境和工具包。 別誤會,我喜歡aws,azure和google提供的工具-沒有它們,您真的無法有效地進行ai / ml。 但是,存在一些雲**商工具無法解決的重要考慮因素。 換句話說,雲**商工具是必需的,但還不夠。

那麼,什麼是" ai / ml平台"? 簡而言之,ai / ml平台的目的是加速將ai / ml模型投入生產。 它是在ai / ml環境和工具之上實現的"膠水",即指令碼,安全策略,可操作性問題和自我配置基礎結構。

讓我們解決關鍵因素:

· 安全性:解決訪問敏感資料所需的安全性問題,需要大量的盡職調查。在大多數組織中,其根本原因是幾乎每個專案都討論,辯論和實施了幾乎相同的安全問題。另一方面,ai / ml平台根據您組織的安全狀況實施安全模型,執行一次,然後將其提供給所有專案。大多數組織,尤其是受到嚴格監管的組織,都需要遠遠超出雲**商

通常提供的"虛擬公共雲"功能的安全控制。至少應具有的一組附加功能包括:基於身份的訪問控制(將解決幾乎所有黑客問題),配置漂移管理(例如,捕獲capital one發生的錯誤防火牆規則更改),以及資料流的方式(例如,資料可以儲存在平台上,但只能使用"類似於citrix"的門戶來視覺化以使用工具-資料永遠不會離開平台)

· 可操作性:所有大型企業對生產**都有嚴格的要求。 如今,ai / ml模型被認為是可部署的**,並且受到與其他生產**相同的要求的約束。 不幸的是,在大多數不成熟的組織中,這些要求是在每個專案的基礎上實現的。 相比之下,ai / ml平台提供了生產級工具,可通過常用的日誌記錄,警報,異常處理,統計資訊和指標捕獲以及與企業操作控制台的整合來增強裸機模型,從而確保ai / ml模型也能解決 基本的企業關注點

· 自我配置的基礎架構:我發現組織遷移到雲時發生了不幸的事情:他們帶來了舊的資料中心包(主要是笨拙的流程和手動流程),並在雲上實施了同樣低效的流程。 錯誤的答案! 雲**商花費了數年時間優化工具和流程,以使資料科學家能夠自行配置工具和環境,而無需其他監督或流程。 ai / ml平台整合了必要的devops和安全功能,以允許資料科學家和資料工程師快速獲取資料並提供訓練環境。

第4課:" ai / ml市場"是現代ai / ml的基本要求

· 為了解決可重複性問題,ai / ml marketplace提供了對模型源**的引用(當前版本和先前版本),並且用於訓練模型的資料都儲存在清單中

· 為了解決可追溯性,ai / ml marketplace保留了對原始源系統資料和資料工程指令碼的引用,這些資料用於轉換和豐富其內容,從而在整個交付生命週期中提供對資料的所有更改的可見性。

· 為了解決可驗證性,ai / ml市場管理對訓練輸出,日誌和相關工件(包括與模型偏差和"道德"檢查相關的輸出日誌)的引用,從而捕獲模型有效性的證據。

· 為了自動化資訊捕獲過程,ai / ml市場將與ai / ops(用於ai / ml的devops)過程整合在一起,以自動捕獲上述工件。 有趣的是,主要的雲提供商,傳統的devops**商以及較新的ai / ops初創公司都可以使用工具和功能,可以將它們組合在一起以捕獲許多所需的指標和元資料。

簡而言之,ai / ml市場是目錄和儲存庫,可通過充分解決可重複性,可追溯性,可驗證性和可解釋性來促進現代ai / ml開發,管理和治理。

第5課:立即開始您的cloud-native ai / ml程式!

在大多數企業中,我看到計算平台和資料/儲存量的擴充套件遠遠超出了內部資料中心的功能。 gpu不在議程中。 三倍和四倍的儲存池正在建設中。 但事實是,事實證明,即使是大型組織也無法跟上步伐。

大型國際諮詢公司埃森哲(accenture)說,問題很少:首先,"到現在為止,還沒有經過驗證的擴充套件藍圖,組織可能陷入一些常見的陷阱。"其次,"人工智慧的陌生環境 意味著企業可以被誘使放棄久負盛名的行為,重新發明輪子並從頭開始構建。"最後,"有許多行之有效的低成本ai選項可以立即購買並開始使用。 "

那麼,當大型雲**商提供其他功能更強大,成本效益更高,可擴充套件的最新選項時,為什麼要與之抗衡呢? 我的簡單建議是:拋開批評家,讓您的雲原生ai / ml程式啟動!

第六課:使ai / ml民主化

大多數組織,尤其是那些將ai / ml遷移到雲中的組織,都有千載難逢的機會來組織其組織以取得成功。 我的願景(我在大型企業中看到過的願景)是"使ai / ml民主化"。 我的意思是,任何小組(假設他們具有技能)都應該能夠隨時隨地使用他們需要的任何工具和庫來構建ai / ml模型。

但是,您如何擴充套件和管理這種型別的組織結構? 簡單來說,基本要求是在ai / ml平台和ai / ml市場中實現了規模和管理所需的必要防護欄。 考慮到這一點,以下是ai / ml組織中一組實用的組:

· ai / ml平台團隊:該團隊對建立,執行,支援和發展包括基礎架構,雲環境,安全性,工具和devops在內的所有元件具有完全的端到端責任。 該團隊不僅要對平台負責,而且還要培訓,支援和指導資料科學團隊

· 分布式資料科學團隊:由於許多跨領域的問題都融入了ai / ml平台中,因此這使資料科學家可以騰出時間從事資料科學工作,還可以使整個組織中的資料科學家快速,無縫地入職。 該指導原則允許任何具有資料科學技能的小組,以其小組的需求和業務需求所決定的速度進行資料科學。 沒有集中的組。 沒有象牙塔。

總結我在本文中的目的是提供一些簡單的經驗教訓,這些經驗教訓將幫助您加速企業的ai / ml之旅,並避免一些我遇到的減速帶和坑窪。 希望我已經實現了這個目標。

但是我可以肯定地說的是,事情發展很快。 技術和方法可能會發展,而且很可能我應該考慮從現在開始一年編寫乙個新版本。 或者,也許,一年後,您將能夠寫出從您的組織的ai / ml之旅中學到的一些經驗教訓!

機器學習 機器學習的動機和應用

網易公開課學習筆記 機器學習的定義 arthur samuel 在不直接針對問題進行程式設計的情況下,賦予計算機學習能力的乙個研究領域 讓計算機學會如何下棋,並超過自己 tom mitchell 給計算機乙個任務t和效能測試方法p,如果在經驗e的影響下,p對t的測量結果得到了改進,我們說程式從e中得...

機器學習中qa測試 如何測試AI和機器學習系統?

智慧型手機,智慧型揚聲器,智慧型汽車,智慧型咖啡機.這個名單還在繼續。看起來我們周圍的一切都變得生機勃勃,變得聰明起來。雖然科幻型別依賴於我們對敵對機械人接管的恐懼,但智慧型裝置絕不是反烏托邦 它們實際上是為了讓我們的生活更輕鬆,所以我們可以花更多的時間在重要的東西上,而不是繁瑣的工作上。科技公司知...

機器學習 LDA初始和應用

一 前述 lda是一種非監督機器學習技術,可以用來識別大規模文件集 document collection 或語料庫 corpus 中潛藏的主題資訊。它採用了詞袋 bag of words 的方法,這種方法將每一篇文件視為乙個詞頻向量,從而將文字資訊轉化為了易於建模的數字資訊。但是詞袋方法沒有考慮詞...