備忘 機器學習和資訊檢索常用的東東

2021-08-25 16:09:00 字數 1201 閱讀 1764

1、多項式分布

2、文字的多項式分布建模

3、共軛先驗

4、概率平滑{lapace平滑、加1平滑、dirichlet貝葉斯平滑、2階段語言模型}

5、似然函式

6、log似然函式

7、期望最大化演算法

8、條件概率

9、貝葉斯全公式

10、生成模型

11、判別模型

12、條件期望

13、拉格朗日係數

14、vsm,lsi,plsi,lda。。。

15、crf、hmm、svm、nn、dt、mem。。。

16、協同過濾

17、expert finding

18、資訊抽取

19、貝葉斯決策論

20、kl-divergence

21、熵、條件熵、交叉熵、互資訊

22、最大似然同交叉熵之間的聯絡

23、一般圖模型的畫法以及其含義

24、馬爾可夫性質

25、gibbs sampling或者就是sampling

26、varitional inference

27、******x

28、各種概率分布:gauss、多重貝努力、beta、dirichlet。。。

29、貝葉斯網路

30、各種排序方法的評估:如ndcg

31、自然語言中各種名詞的含義:如wsd

32、基本概念:監督學習、半監督學習、無監督學習等等

33、維度規約

34、假設檢驗

35、特徵提取的基本方法

36、文字分類、聚類的基本方法

37、pagerank,hits等基本方法

38、trustrank

39、 web spam

40、資訊檢索的基本模型:vsm、lm、rsj、bir等等

41、okapi

42、如何建立評測集合:pooling

43、文字取樣的方法: shingling、fingerprint

44、feedback的基本方法

45、translation model

46、kernal method

47、active learning

48、語言模型/n-gram

49、discriminative mode、generative mode

50、exchangeable random variables

資訊檢索與資料探勘的常用加權技術。

tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。外文名 term frequency inverse document frequency 縮 寫 tf idf 用 於 資訊檢索資料探勘的常用加權技術 類 ...

無法檢索資料和目標資料的列資訊 2 檢索資料

select語句應該是 sql 最常用的語句了,用來從乙個表中或者多個表中檢索資料。對於 sql 語句來說,必須至少要給出 2 條資訊 注 作為 sql 組成部分的保留字,關鍵字不能用作表或者列的名字 我們用來示例的表叫 products。select prod name from products...

機器學習 資訊熵 資訊增益的概念

資訊熵表示 隨機變數 的不確定性。不確定性越大 即所謂的資訊量越大 資訊熵越大。首先從直覺上來講,是可以的。不然我們怎麼覺得有的人廢話特別多,卻沒什麼資訊量 而有的人一語中的,一句話就傳達了很大的資訊量。有些事情本來不是很確定 例如 明天 是漲是跌 1 明天nba決賽開始了 和 跌漲 沒關係,所以 ...