(1)做大資料處理,清洗資料結束後,就是現象分析,再建立model模型,在驗證自己模型的有效性
(2)大資料試驗驗證模型有效性的指標:
accuracy(正確率);precision(查準率或準確率);recall(查全率或召回率);
f1-measure
true positives, true negatives, false positives, false negatives 下面分別進行表述:
(3)詳細介紹:查全率和查準率是目前衡量檢索效果的相對合理的指標
查全率=(檢索出的相關資訊量/系統中的相關資訊總量)*100%
查準率=(檢索出的相關資訊量/檢索出的資訊總量)*100%
前者是衡量檢索系統和檢索者檢出相關資訊的能力,後者是衡量檢索系統和檢索者拒絕非相關資訊的能力。兩者合起來,即表示檢索效率。
true positive (真正, tp)被模型**為正的正樣本;可以稱作判斷為真的正確率
true negative(真負 , tn)被模型**為負的負樣本 ;可以稱作判斷為假的正確率
false positive (假正, fp)被模型**為正的負樣本;可以稱作誤報率
false negative(假負 , fn)被模型**為負的正樣本;可以稱作漏報率
(4)用圖表說話:
**中的翻譯比較重要 true positives (納真) false positives(納偽) false negatives(去真)true negatives (去偽)
其中false positives(納偽)也通常稱作誤報,false negatives也通常稱作漏報!
計算方法:
precision = tp/(tp + fp);
recall = tp / (tp + fn).
然而在實際當中,我們當然希望檢索的結果p越高越好,r也越高越好;事實上這兩者在某些情況下是矛盾的。比如,我們只搜出了乙個結果,且是準確的,
那麼p就是100%,但是r就很低;而如果我們把所有結果都返回,那麼必然r是100%,但是p很低。因此在不同的場合中需要自己判斷希望p比較高還是r比
較高。如果是做實驗,可以繪製precision-recall曲線來幫助分析。
實際例子:
例如:乙個資料集合裡面有100個待檢測的資料,結果用我們的方法檢測出來了10個(其中,8個是那100個待檢測資料中的,2個不是),還有90個沒有檢測
出來;此時precision = 8/10 = 80%, 而 recall = 8 / 100 = 8%;
(5)f-measure是precision和recall加權調和平均:
很容易理解,f1綜合了p和r的結果,當f1較高時則比較說明實驗方法比較理想。
部分摘自:
(6)查全率和查準率都有侷限性
能估計;另外,查全率或多或少具有「假設」的侷限性,這種「假設」是指檢索出的相關資訊對使用者具有同等價值,但實際並非如此,對於使用者來說,資訊的相關
程度在某種意義上比它的數量重要得多。
的全文,才能正確判斷出該資訊是否符合檢索課題的需要;同時,查準率中所講的相關資訊也具有「假設」的侷限性。 實驗證明,在查全率和查準率之間存
在著相反的相互依賴關係--如果提高輸出的查全率,就會降低其查準率,反之亦然。
對使用者來說,影響檢索效果的主要因素有文獻標引的廣泛性和使用者檢索標識的專指性。
(7) 綜述
在資訊檢索,如搜尋引擎、自然語言處理和檢測分類中經常會使用這些引數,因為介於語言翻譯上的原因理解難免出現誤差
好書試讀 大資料處理之道
開始試讀 大資料處理之道 近年來,大資料 已然成為it界如火如荼的詞,與 雲計算 並駕齊驅,成為帶動it行業發展的兩列高速火車。尤其是在物聯網快速發展的時代,資料已經被稱為新的資源,是支撐物聯網發展的基石。那麼,如何把 死 的資料變成真正有效的 資源 成為近年來it界人士共同思考的問題。一時間,各種...
大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...
密立根油滴實驗實驗資料處理
要求寫計算過程,其中資料可由此程式計算,其他可以隨便寫點過程 2333 include include include define pi 3.14159265359 定義圓周率的取值 define density 981 油滴的密度 define b 6.17e 6 粘滯係數修正常數 define...