機器學習演算法簡化資料集 7種雲服務可簡化機器學習

2021-10-07 23:35:51 字數 3256 閱讀 9612

機器學習演算法簡化資料集

資料分析是最後被吸納到雲中的繁瑣工作之一。 也許是因為科學家天生擅長程式設計,因此他們喜歡在辦公桌上有一台機器。 也許是因為實驗室裝置直接連線到計算機以記錄資料。 也許是因為資料集可能太大,以至於移動它們非常耗時。

無論出於何種原因,科學家和資料分析人員都慢慢接受了遠端計算,但是它們正在普及。 用於機器學習,人工智慧和資料分析的基於雲的工具正在增長。 其中某些原因引起了人們對基於雲的文件編輯和電子郵件的興趣。 團隊可以從任何計算機登入**儲存庫,並在偏遠地區,在路上甚至在海灘上進行工作。 雲處理備份和同步,簡化了該組的所有工作。

[在infoworld上深入學習機器學習: 11種必備的機器學習工具 。• 掌握機器學習的13個框架 • 揭秘了機器學習的管道 •回顧: 6個機器學習雲 • 您應使用哪個spark機器學習api?]

但是,還有一些實際的原因,為什麼雲對資料分析的效能更好。 當資料集很大時,雲使用者可以在租用的硬體上快取大量工作,從而大大,更快地完成工作。 無需啟動計算機,然後出去吃午飯,而只是回來幾個小時後發現工作失敗。 現在,您可以按一下按鈕,啟動數十個裝有大量記憶體的雲例項,並在幾分鐘內觀察**失敗。 由於雲現在可以秒速計費,因此可以節省時間和金錢。

也有危險。 最大的是對隱私的不確定性擔憂。 一些資料分析涉及信任您的主題的個人資訊,以保護他們。 我們已經習慣了將資料鎖定在實驗室硬碟中所涉及的安全問題。 很難知道雲中到底發生了什麼。

我們需要一段時間才能適應雲提供商使用的最佳實踐,但是人們已經認識到,也許雲提供商可以雇用比實驗室角落的研究生更多的安全顧問。 並不是說個人計算機可以抵抗病毒或其他後門。 如果個人計算機已連線到internet,那麼您可能會說它已經是雲的一部分。

幸運的是,有一些解決方法。 最簡單的方法是使用隨機id替換個人資訊之類的技術來匿名化資料 。 這不是完美的,但是它可以大大限制任何黑客在攻克雲防禦後可能造成的麻煩。

還有其他有趣的優點。 小組可以向公眾共享或開放源資料集,這會產生我們只能開始想象的瘋狂組合。 一些雲提供商正在策劃自己的資料集並捐贈儲存成本以吸引使用者(初學者請參閱aws , azure , gcp和ibm )。 如果願意,您可以嘗試將產品銷售與天氣或太陽斑或這些公共資料集中的任何其他資訊相關聯。 誰知道? 那裡有很多奇怪的相關性 。

這裡有七種不同的基於雲的機器學習服務,可幫助您找到資料集中的相關性和訊號。

微軟已經看到了機器學習的未來,並全面使用了machine learning studio ,這是一種用於在資料中查詢訊號的高階圖形工具。 就像ai的電子**一樣。 有乙個拖放介面,用於建立流程圖以使您的數字有意義。 該文件說「不需要編碼」,從技術上講這是正確的,但是您仍然需要像程式設計師一樣思考才能有效地使用它。 您只是不會陷入結構化**的泥潭。 但是,如果您錯過語法錯誤,資料型別輸入和其他程式設計樂趣,則可以匯入用python,r或其他幾個選項編寫的模組。

最為有趣的選擇是,microsoft已新增了基礎結構,以從ai中汲取教訓,並將**模型轉換為在azure雲中執行的web服務。 因此,您可以構建訓練集,建立模型,然後只需單擊幾下即可從azure服務以json資料報形式提供答案。

bigml是用於資料分析的混合儀表板,既可以在bigml雲中使用,也可以在本地安裝。 主介面是乙個儀表板,其中列出了所有檔案,等待數十個機器學習分類器,聚類器,回歸器和異常檢測器進行分析。 單擊,然後顯示結果。

最近,該公司專注於新演算法,這些演算法增強了堆疊提供有用答案的能力。 新的fusion**可以整合多種演算法的結果,以提高準確性。

通過訂閱,在bigml自己的計算機上可享受免費層的定價 。 您還可以在aws,azure或gcp上構建私有部署。 如果仍然太公開,他們會將其部署在您的私有伺服器上。

databricks工具集是由apache spark的一些開發人員構建的,他們採用了開源分析平台,並新增了一些顯著的速度增強功能,並通過一些巧妙的壓縮和索引增加了吞吐量。 稱為delta的混合資料儲存是可以儲存大量資料然後進行快速分析的地方。 當新資料到達時,可以將其摺疊到舊儲存中以進行快速重新分析。

apache spark的所有標準化分析例程都可以在此資料上執行,但是對spark基礎結構進行了一些急需的改進,例如用於分析**的整合筆記本。

databricks與aws和azure整合在一起,並根據消耗量和效能定價。 每個計算引擎均以databrick單位進行度量。 您需要為更快的模型支付更多費用。

這裡的許多方法都可以讓您一鍵構建機器學習模型。 datarobot吹捧僅需一鍵即可同時構建數百個模型的功能。 模型製作完成後,您可以選擇它們並找出哪個模型可以更好地進行**並繼續使用。 秘訣是「大規模並行處理引擎」,換句話說就是一堆機器在做分析。

datarobot正在通過實施新演算法並擴充套件現有演算法來擴充套件。 該公司最近收購了nutonian,後者的eureqa引擎將增強自動機器學習平台建立時間序列和分類模型的能力。 該系統還為更高階的使用者提供了python api。

可通過datarobot cloud或嵌入式工程師隨附的企業版軟體獲得datarobot。

有幾個不同的部分。 最容易開始的地方可能是colaboratory ,它將jupyter筆記本與google的tensorflow後端連線起來,以便您可以草繪**並檢視其運**況。 google還為想要進行實驗的科學家提供了tensorflow研究雲 。 在適當的時候,您可以使用gpu或tpu在google加速的硬體上執行機器學習模型。

這個品牌的名字可能是在巨大的,隱藏的ai扮演jeopardy時誕生的,但現在watson涵蓋了ibm在人工智慧方面的許多努力。 ibm watson studio是用於在雲或本地中瀏覽資料和訓練模型的工具。 資料輸入輸出,儀表板上的漂亮圖表可以用於會議室。

最大的不同可能是watson studio的桌面版本。 您可以使用基於雲的版本來研究資料,並享受彈性資源和集中式儲存庫附帶的所有功能。 或者,您可以從防火牆的隱私和桌面的便利性中做很多事情。

儘管許多人希望為他們的所有ai研究選擇乙個儀表板,但沒有理由您不能在這裡使用更多選擇。 完成所有預處理和資料清理後,您可以將相同的csv格式的資料輸入所有這些服務中,並比較結果以找到最佳選擇。 其中一些服務已經提供了演算法之間的自動比較。 為什麼不更進一步並使用多個?

您還可以利用不斷發展的一些開放標準。 例如,jupyter筆記本通常無需過多修改即可執行。 您可以在乙個平台上進行開發,然後將大量**與資料一起移動以測試不同平台上的任何新演算法或不同演算法。

我們距離標準化還有很長的路要走,並且演算法之間存在怪異且無法解釋的差異。 不要只滿足於一種演算法或一種訓練方法。 嘗試使用可以管理的多種不同建模工具。

翻譯自:

機器學習演算法簡化資料集

機器學習演算法簡化資料集 7種雲服務可簡化機器學習

機器學習演算法簡化資料集 資料分析是最後被吸納到雲中的繁瑣工作之一。也許是因為科學家天生擅長程式設計,因此他們喜歡在辦公桌上有一台機器。也許是因為實驗室裝置直接連線到計算機以記錄資料。也許是因為資料集可能太大,以至於移動它們非常耗時。無論出於何種原因,科學家和資料分析人員都慢慢接受了遠端計算,但是它...

機器學習演算法簡化資料集 7種雲服務可簡化機器學習

機器學習演算法簡化資料集 資料分析是最後被吸納到雲中的繁瑣工作之一。也許是因為科學家天生擅長程式設計,因此他們喜歡在辦公桌上有一台機器。也許是因為實驗室裝置直接連線到計算機以記錄資料。也許是因為資料集可能太大,以至於移動它們非常耗時。無論出於何種原因,科學家和資料分析人員都慢慢接受了遠端計算,但是它...

7種雲服務可簡化機器學習

資料分析是最後要被吸收到雲中的繁瑣工作之一。也許是因為科學家天生擅長程式設計,因此他們喜歡在桌子上放一台機器。也許是因為實驗室裝置直接連線到計算機以記錄資料。也許是因為資料集太大,以至於移動它們很費時。無論出於何種原因,科學家和資料分析師都慢慢接受了遠端計算,但是它們正在出現。用於機器學習,人工智慧...