資料科學家應知道的關於資料科學專案的四個關鍵方面

2021-09-28 20:49:38 字數 4058 閱讀 7414

實用資料科學是乙個多維領域。機器學習演算法本質上是整個端對端資料科學驅動專案的一部分。我經常遇到一些年輕的資料科學愛好者,他們在剛開始的時候沒有乙個完整的計畫。

在針對實際情況構建資料科學驅動產品的解決方案時,我們需要考慮多種實際情況,所以它不僅限於只考慮資料方面的事情!

在資料科學驅動的專案中,一些更關鍵的問題包括:

因此,在本文中,我將根據自己的經驗來討論資料科學家如何考慮資料科學驅動的專案。找到資料驅動解決方案的道路並不是筆直的,解決方案也不是預先定義的。我們需要了解維護和部署我們的資料驅動解決方案的各個方面。

該文章著重於分享對成功實施資料科學專案所涉及的各個元件的見解。

這些成員本質上是資料科學專案中的關鍵相關者。

在第二篇文章中,我們討論了在定性業務需求和機器學習模型的定量輸入之間連線起來的方法。特別是,我們討論了如何定義資料驅動的產品的成功標準,以便能夠以有形的定量方式度量進展。

第二篇文章還提供了乙個框架,應該使用一致的人工標籤來提供盡量準確的資料,來訓練準確的機器學習模型。最後,第二篇文章討論了正確的團隊組成對端到端專案成功的重要性。

現在進入本系列的第三篇文章!

花點時間想想你經常使用的一些資料驅動的產品。很有可能你已經想到了以下其中之一:

乙個文字處理器,檢查你的文字的拼寫和語法結構,並自動更正或建議更正

乙個社交**平台,根據你在平台上的互動的相關性,個性化你應該聯絡的內容或人

電子商務門戶,根據你當前的購物籃或你的購物歷史推薦你應該購買的商品

兩個更專門的例子是:

這些資料驅動產品的資料科學模組中的乙個關鍵元件將能夠執行內容組織和資訊檢索

然而,資訊檢索(information retrieval ir)元件將需要根據最終使用情況進行大量的定製。同樣,資訊的流動也需要根據ir元件的功能進行修改。

讓我們用上面提到的例子來理解這個問題:

作為資料科學交付所有者,你必須了解專案的用況,並且評估它可能對解決方案施加的各種約束,確定它可能給予你的各種自由度。我們將在下面討論一些具體問題。

我喜歡將資料科學元件看作拼圖中的一塊:它本身很重要,但是需要與拼圖的其他部分緊密配合!

在所有實際應用中,資料科學元件僅是一部分,而其本身並不是完整的解決方案。

使用者通過使用者介面(user inte***ce ui)與最終應用程式進行互動。在設計使用者體驗(user experience ux)時,應與基礎資料科學元件聯絡考慮介面上加強其優點,同時掩蓋其缺點。

讓我使用兩個不同的示例來說明將ui/ux與資料科學的元件進行協作的最佳方法:

搜尋引擎

乙個典型的web搜尋引擎使用繁重的資料科學機制對webpage進行排名和分類。然後,它會響應使用者的查詢返回最相關的查詢。

如果資料科學元件可以提供高置信度解釋查詢並提取確切的特定答案,則使用者介面可以利用此置信度將答案僅顯示為該結果。這將導致無縫的使用者體驗。

google應用了這一點。對於"印度總理"之類的查詢,它以"知識面板"的形式返回答案。另一方面,當資料科學對確切答案的置信度低於某個閾值時,可以安全地讓使用者通過再單擊幾下與系統進行互動以獲得特定答案,而不用冒著糟糕的使用者體驗的風險。

當我們搜尋"印度國會議員在**開會"時,google的第乙個鏈結具有正確答案,但是由於對確切答案片段的信心較低,因此不會顯示"知識面板"。

還有另一種利用ui/ux與資料科學元件協同作用的方法。使用者與系統的互動還可以用於生成間接的"標記資料",也可以作為系統效能評估的**。

例如,設想乙個場景,其中web搜尋引擎返回給定查詢的前10個結果,並且使用者幾乎總是單擊第二個或第三個鏈結。這意味著基礎資料科學元件需要更新其排名演算法,以便第二個和第三個鏈結的排名高於第乙個。

「wisdom-of-crowd」(人群的智慧型)提供了一對帶有標籤的"搜尋-相關頁面"。但是,以這種方式推斷的標籤對將包括各種使用者偏見。因此,如果要將這些標籤用於訓練資料科學元件,需要乙個簡單的標籤標準化過程。

文字處理器

同樣,考慮文字處理器中的典型拼寫檢查器。基本的資料科學機制的任務是識別何時鍵入的單詞可能是拼寫錯誤,如果是,則突出顯示拼寫錯誤的單詞並建議可能的正確單詞。

因此,資料科學團隊必須理解資料科學驅動的輸出在到達終端使用者手中之前所經歷的所有轉換。ui設計人員和工程師應該了解資料科學元件可能出現的錯誤。

資料科學專案領導者必須推動跨團隊的協作,以提供最佳的最終解決方案。另外,請注意我在上面提到了"高置信度"和"低置信度",而機器需要的是"置信度高於83%"。這就是我們在本系列的前一篇文章中討論的"定性到定量的差距"。

團隊需要建立共識的下乙個方面是關於使用者與端到端系統互動的性質。

讓我們以語音到文字系統為例。在這裡,如果預期的設定是使用者上傳一組語音檔案,並期望在語音到文字輸出的結果是可用時自動提示使用者。但是該資料科學系統可能需要相當長的時間來生成最佳質量的輸出。

另一方面,如果使用者互動是這樣設計的,即使用者說了乙個單詞或者短語,然後等待系統響應,那麼系統應該是怎麼樣的?資料科學系統的體系結構應該是這樣的:用更高的計算成本來換取生成更高精度的結果。

知道部署資料科學系統的完整環境也可以幫助在資料科學系統計算成本和總體準確性之間做出明智的權衡。

在上述語音到文字的示例中,我們知道端到端系統限制使用者僅說出他的**簿中的人名。因此,在這裡,資料科學元件可以將其搜尋空間限制為**簿中的名稱,而不是搜尋成千上萬人的姓名。

訓練和執行機器學習元件所需的計算能力通常在精度較低的情況下呈線性增長,然後在精度較高的情況下呈指數增長。

執行和維護解決方案的成本應該遠遠低於機器學習解決方案的收入,這樣機器學習才有經濟效益。這可以通過以下兩種方式實現:

另乙個實際考慮因素是"模型可解釋性"。

通過能夠解釋為什麼乙個給定的資料科學模型以一種特定的方式執行,可以幫助對模型的更改、訓練樣本的更改和體系結構的更改進行優先順序排序,從而提高整體效能。

在一些應用中,比如我們上面討論的貸款資格**,或者精準醫療,取證,根據規定,資料科學模型必須是可解釋的,這樣人類專家才能檢查是否發生了偏見。

在解決業務問題的資料驅動專案中,可解釋模型在構建信任方面也大有幫助。但是,不利的一面是,最精確的模型通常也是最抽象的模型,因此也難以解釋。

因此,資料科學交付負責人必須解決的乙個基本問題是準確性和可解釋性之間的折衷。

基於深度學習的模型屬於高抽象和低可解釋性模型。深度學習模型可解釋性方面有大量的積極研究(例如lime和layer wise relevance propagation)。

總之,乙個高精度的資料科學元件本身可能沒有什麼意義,即使它解決了乙個緊迫的業務需求。在乙個極端情況下,可能是資料科學解決方案以高計算能力或高周轉時間為代價來獲得高準確性,而這兩者都是業務所不能接受的。

在另乙個極端,可能是終端使用者互動的元件對資料科學元件的錯誤的敏感性比較小,因此乙個相對簡單的模型就可以滿足業務需求。

對於資料科學元件如何適應整個端到端解決方案的良好理解無疑將有助於做出正確的設計和決策。這反過來又在合理的運營預算內增加了客戶對解決方案的接受度。

資料科學家的成長之路

背景 平凡之路 凡事預則立,不預則廢。結合國內外的行業現狀,和資料科學領域的培養模式,我把資料科學的學習過程分成以下四個級別 入門 初級 中級 高階。吃瓜群眾就是喜歡分級,哈哈哈 高階之上,我認為還有乙個級別 高階,強調跨學科的綜合能力,以及團隊協作能力。由於我不是科班出身,學得不夠系統,所以現在的...

資料科學家Docker入門指南

摘要 docker容器那麼強大?可以應用道資料科學領域?看來學習一下!docker容器是通過虛擬化開發和部署應用程式的一種越來越流行的方式,它對資料科學家有用嗎?當然,本指南就會向你介紹它的作用,並手把手教你快速入門。docker是一種越來越流行的,使在容器中開發 部署和執行應用程式變得更容易的工具...

資料科學家成搶手人才

對於乙個理應奇缺人才的領域,資料科學似乎在快速造就大批新專家。不久前,1600人出席了華盛頓大學 university of washington 機器學習教授卡洛斯 格斯特林 carlos guestrin 執掌的公司turi在舊金山主辦的一次資料科學峰會,表明資料科學引起的興趣是多麼的濃厚。格斯...