Google發布機器學習開源視覺化工具Facets

2021-09-10 12:54:26 字數 2026 閱讀 2455

文 / google big picture 團隊高階軟體工程師 james wexler

要通過機器學習 (ml) 模型取得最佳結果,您需要真正理解您的資料。然而,機器學習資料集可能包含數以億計的資料點,每個資料點又都包含數百個(甚或數千個)特性,因此,直觀地理解整個資料集幾乎是不可能的。視覺化工具有助於發現大型資料集的微妙之處並從中發現真知灼見。一張傳達的資訊勝過千言萬語,而乙個直觀的視覺化工具則更勝一籌。

在執行 pair 計畫的過程中,我們發布了 facets,乙個用於幫助理解和分析機器學習資料集的開放源**視覺化工具。

可使用 facets overview 了解資料的每個具體特性,或使用 facets dive **個別觀察的資料集。這些視覺化選擇允許您除錯您的資料,這在機器學習中與除錯您的模型一樣重要。您可在 jupyter notebooks 內部輕鬆使用它們,也可將其嵌入網頁。除開放源**外,我們還建立了乙個 facets 演示**:

此**允許任何人直接在瀏覽器中視覺化他們自己的資料集,而不必安裝或設定任何軟體,甚至不需要資料離開您的計算機。

facets overview 自動幫助使用者快速理解其資料集特性的值分布。可在同乙個視覺化檢視中比較多個資料集(如訓練集和測試集)。妨礙機器學習的常見資料問題被推到前端,例如,異常的特性值、缺失值比例很高的特性、分布不均的特性,以及資料集之間偏態分布的特性。

facets overview 以視覺化方式顯示 uci 人口普查資料集[1]的六個數字特性。這些特性按照不均勻性排序,分布最不均勻的特性位於頂部。紅色的數字表示可能的故障點,在這種情況下,將帶有高比例值的數字特性設為 0。右側的柱狀圖允許您比較訓練資料(藍色)和測試資料(橙色)之間的分布。

facets overview 以視覺化方式顯示 uci 人口普查資料集九個分類特性中的兩個特性。這些特性按分布間距排序,訓練資料集(藍色)和測試資料集(橙色)之間偏態最顯著的特性位於頂部。請注意,在「target」特性中,由於測試資料集中的值末尾帶有句點(「<=50k」與「<=50k.」),訓練資料集與測試資料集的標籤值存在差異。這個差異可在特性圖表中以及**的「首列」條目中看到。這種標籤不匹配性將導致針對該資料進行訓練和測試的模型無法得到正確評估。

facets dive 提供了乙個易於自定義的直觀介面,用於探索資料集中不同特性資料點之間的關係。借助 facets dive,您可以根據每個資料點的特性值來控制資料點的位置、顏色和視覺表徵。如果資料點具有與其關聯的影象,則可使用影象作為視覺表徵。

facets dive 對「quick, draw!」資料集中大量面部繪圖進行的視覺化處理,結果顯示了繪圖中筆畫數與點數之間的關係,同時可使「quick, draw!」分類器將這些繪圖正確歸類為面部。

有趣的事實: 在大型資料集中(如 cifar-10 資料集),乙個小小的人為標記錯誤很容易被忽視。我們通過 dive 檢查了 cifar-10 資料集,結果發現了乙隻青蛙貓——一張青蛙被錯誤標記為貓!

您能找出那只青蛙貓嗎?

在 google 內部,我們已借助 facets 實現巨大價值,現在,我們期望與全世界分享這些視覺化工具。我們希望這些工具能幫助您發現您的資料中的新鮮有趣的事實,進而激發您建立出更強大、更準確的機器學習模型。由於這些工具已開放源**,因此,您可以根據您的具體需求自定義視覺化內容,或為該專案做貢獻,以幫助我們更好地理解我們的資料。

Google發布了DIY開源AI硬體產品

google發布了diy開源ai硬體產品 voice kit。google 一直致力於人工智慧方面的發展,google assistant 以及語音助手專案都使用人工智慧來改善我們的日常生活。為充分調動公眾對人工智慧專案的興趣,google 發起了名為 aiy 的倡議活動,公開了多個開源的 ai 專...

Google機器學習課程 機器學習術語

監督式 機器學習定義 機器學習系統通過學習如何組合輸入資訊來對從未見過的資料做出有用的 標籤是我們要 的事物,即簡單線性回歸中的 y 變數。特徵是輸入變數,即簡單線性回歸中的 x 變數。樣本是指資料的特定例項 x 模型定義了特徵與標籤之間的關係。訓練是指建立或學習模型。也就是說,向模型展示有標籤樣本...

Google機器學習教程心得(二)決策樹與視覺化

google machine learning recipes 2 官方中文部落格 github工程位址 歡迎star,也歡迎到issue區討論 我們從iris問題,學習決策樹視覺化,了解決策樹工作過程。有很多分類器 artificial neural network support vector ...