1、多項式分布
2、文字的多項式分布建模
3、共軛先驗
4、概率平滑{lapace平滑、加1平滑、dirichlet貝葉斯平滑、2階段語言模型}
5、似然函式
6、log似然函式
7、期望最大化演算法
8、條件概率
9、貝葉斯全公式
10、生成模型
11、判別模型
12、條件期望
13、拉格朗日係數
14、vsm,lsi,plsi,lda。。。
15、crf、hmm、svm、nn、dt、mem。。。
16、協同過濾
17、expert finding
18、資訊抽取
19、貝葉斯決策論
20、kl-divergence
21、熵、條件熵、交叉熵、互資訊
22、最大似然同交叉熵之間的聯絡
23、一般圖模型的畫法以及其含義
24、馬爾可夫性質
25、gibbs sampling或者就是sampling
26、varitional inference
27、******x
28、各種概率分布:gauss、多重貝努力、beta、dirichlet。。。
29、貝葉斯網路
30、各種排序方法的評估:如ndcg
31、自然語言中各種名詞的含義:如wsd
32、基本概念:監督學習、半監督學習、無監督學習等等
33、維度規約
34、假設檢驗
35、特徵提取的基本方法
36、文字分類、聚類的基本方法
37、pagerank,hits等基本方法
38、trustrank
39、 web spam
40、資訊檢索的基本模型:vsm、lm、rsj、bir等等
41、okapi
42、如何建立評測集合:pooling
43、文字取樣的方法: shingling、fingerprint
44、feedback的基本方法
45、translation model
46、kernal method
47、active learning
48、語言模型/n-gram
49、discriminative mode、generative mode
50、exchangeable random variables
資訊檢索與資料探勘的常用加權技術。
tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。外文名 term frequency inverse document frequency 縮 寫 tf idf 用 於 資訊檢索資料探勘的常用加權技術 類 ...
無法檢索資料和目標資料的列資訊 2 檢索資料
select語句應該是 sql 最常用的語句了,用來從乙個表中或者多個表中檢索資料。對於 sql 語句來說,必須至少要給出 2 條資訊 注 作為 sql 組成部分的保留字,關鍵字不能用作表或者列的名字 我們用來示例的表叫 products。select prod name from products...
機器學習 資訊熵 資訊增益的概念
資訊熵表示 隨機變數 的不確定性。不確定性越大 即所謂的資訊量越大 資訊熵越大。首先從直覺上來講,是可以的。不然我們怎麼覺得有的人廢話特別多,卻沒什麼資訊量 而有的人一語中的,一句話就傳達了很大的資訊量。有些事情本來不是很確定 例如 明天 是漲是跌 1 明天nba決賽開始了 和 跌漲 沒關係,所以 ...