機器如何計算「相關性」?

2021-04-16 17:45:58 字數 929 閱讀 3488

絕對不可能知道語義。

所以無從判斷中心思想。

我們的觀點是:

這是乙個策略問題。

比方說網易新聞,http://gd.news.163.com/06/

1024/04/2

u61i

1m40036000q.html

(中間有自動標出來的

tag,但不夠準確),既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語也可能才真正是主題思想。

那麼,到了我們這邊,我們由於不是做新聞的,所以,能玩的很多。

比如說,事先把昨天一整天的社會民生的文章計算,整理出許多內聚性很強的文章組,每組這樣就會有一組詞語來代表這組的主題思想。

然後,讀者閱讀其中一篇時,那麼這片文章所屬的組的代表詞語,就可以關聯到很多其他文章。

這樣,發散性會好一點。

而不會說,搶劫案的新聞匹配的都是搶劫案。

可能會使派出所、治安聯防等的昨日新聞都關聯進來。

也就是說,單純靠一篇新聞去玩,是不靠譜的

這就是乙個策略問題,思路問題。

不過,產品設計人員一定要考慮到,使用者真的會按照你的這種思路瀏覽嗎?

可不是這麼樣子的。

發散性很強。

引入各種策略。來讓使用者感覺好看。

機器如何計算「相關性」?

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...

機器如何計算「相關性」?

絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...

相關性計算

科學計算法 通過計算相關性係數r coding utf 8 import numpy asnp import pandas aspd import matplotlib.pyplot asplt import scipy.stats asstats 兩者的關係為 當p 0.05 或者0.01 的前提...