資料探勘的十大錯誤現象 翻譯

2021-05-21 20:56:26 字數 1129 閱讀 4545

在癌症檢測的專案中,醫生和研究人員在使用神經網路訓練資料時驚奇發現:訓練長時間(幾周或幾天)的訓練對結果的提高是有限的,更多時候會有更糟糕的評估結果。

2. 依賴於一種技術rely on one technique

"to a little boy with a hammer, all the world's a nail." (如果乙個人擁有一把錘子,那麼全世界都是釘子)

for best work, need a whole toolkit.(為了更好的工作,需要一整個工具箱)

3. 問錯誤的問題(即試圖達到乙個錯誤的目標)ask the wrong question

a)專案目標

在**欺詐檢測的專案中,不要試圖去分類一般呼叫的欺詐和非欺詐,而是要標註每乙個賬戶的正常行為,

然後標記離群,就會取得成功

b)模型目標

例如在員工股份分紅中,大多數研究者熱衷於平方差,因為這樣簡單方便。但是我們應該讓計算機做對系統最有幫助的,而不是最容易的。

4. 僅聽從於資料listen (only) to the data

5. 接受(容忍)漏洞accept leaks from the future

6. 認為煩人的例項不重要  discount pesky cases

7.推斷 extrapolate

試圖從最初的幾次試驗就獲得太多的資訊

在發現巨大錯誤還很難去除不正確的想法

維度禍根:低維度中的直覺在高維度中用處不大

8. 回答每乙個詢問(這裡為輸入更合適)answer every inquiry

不知道是乙個有用的模型輸出狀態 "don't know" is a useful model output state

能夠估計到每個輸出的不確定性      could estimate the uncertainty for each output

9. 隨意取樣 sample casually

10.太迷信所謂最佳模型   believe the best model

a)我們並不總是需要可解釋性,模型可以是有用的但不具有"正確性"和可解釋性

b)通常,許多相似的變數可以用,而且所謂最好模型的特定結構可能變化複雜。但是結構簡單不等於功能簡單,一些競爭模型往往看起來不同 (簡單),但能夠同樣工作。

使用者故事使用中的十大錯誤

1.在使用者故事中,將開發中的相關人員作為系統使用者角色 比如 as a po apo ppo developer tester manager integration engineer,i want 必須注意,as a 中的role是執行時實際使用該系統的使用者角色,不是開發時干係人的角色 包括客...

資料探勘十大演算法

資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...

資料探勘的十大演算法

按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...