絕對不可能知道語義。
所以無從判斷中心思想。
我們的觀點是:
這是乙個策略問題。
比方說網易新聞,http://gd.news.163.com/06/
1024/04/2
u61i
1m40036000q.html
(中間有自動標出來的
tag,但不夠準確),既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語也可能才真正是主題思想。
那麼,到了我們這邊,我們由於不是做新聞的,所以,能玩的很多。
比如說,事先把昨天一整天的社會民生的文章計算,整理出許多內聚性很強的文章組,每組這樣就會有一組詞語來代表這組的主題思想。
然後,讀者閱讀其中一篇時,那麼這片文章所屬的組的代表詞語,就可以關聯到很多其他文章。
這樣,發散性會好一點。
而不會說,搶劫案的新聞匹配的都是搶劫案。
可能會使派出所、治安聯防等的昨日新聞都關聯進來。
也就是說,單純靠一篇新聞去玩,是不靠譜的
這就是乙個策略問題,思路問題。
不過,產品設計人員一定要考慮到,使用者真的會按照你的這種思路瀏覽嗎?
可不是這麼樣子的。
發散性很強。
引入各種策略。來讓使用者感覺好看。
機器如何計算「相關性」?
絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...
機器如何計算「相關性」?
絕對不可能知道語義。所以無從判斷中心思想。我們的觀點是 這是乙個策略問題。比方說網易新聞,http gd.news.163.com 06 1024 04 2 u61i 1m40036000q.html 中間有自動標出來的 tag,但不夠準確 既然乙個新聞兩三百字難以確定。畢竟某些僅僅提到過一次的詞語...
相關性計算
科學計算法 通過計算相關性係數r coding utf 8 import numpy asnp import pandas aspd import matplotlib.pyplot asplt import scipy.stats asstats 兩者的關係為 當p 0.05 或者0.01 的前提...