文智背後的奧秘 系列篇 關鍵詞智慧型提取

2021-07-24 08:34:24 字數 760 閱讀 1212

2.應用場景

3.現有問題與挑戰

2.演算法流程

2.1 文字分類器

文字分類器我們採用最大熵模型[2],使用業務最近一年帶頻道標籤的新聞作為訓練集。每個頻道選取頻道相關度最高的1w個詞語作為分類特徵。

對於最大熵模型,網上可以找到很多相關資料,這裡就不作介紹了。

2.2 主題**

使用lda[3]作為主題聚類模型。lda開源的大部分開源實現都是單程序的,在處理較大規模的語料時,其時間和記憶體開銷都非常大,無法滿足我們的要求。因此我們實現了一套分布式的lda平台,使得能夠快速處理大規模的資料。

語料通過lda平台處理後,會得到每個主題下概率較高的詞語。人工選取質量較高的主題,並使用乙個詞語或者短語概括這個主題。對於一篇文章,lda的inference結果是乙個概率向量,我們選取概率值大於閾值的主題作為文章所屬的主題。

圖6高質量的主題

2.3 標籤詞抽取

標籤詞抽取包括:生成候選詞和相關性計算。下面分別介紹這兩部分。

1)生成候選詞

通過分詞得到的基本詞、短語等,過濾掉基本詞中的停用詞

命名實體(有效解決新詞、熱詞的自動發現)

2)相關性計算

使用線性加權對候選詞打分,其特徵包括:

選取相關性得分大於閾值的候選詞作為文章的標籤詞。

3.效果評價泛義詞過濾不徹底,後續需要繼續優化候選詞過濾模組。

海底撈全球首家智慧型餐廳背後的奧秘 廚房的智慧型大腦

位於北京中駿世界城的海底撈智慧型餐廳於 10 月 28 日正式營業。360 度立體投影沉浸式用餐場景 等位區的互動遊戲 千人千味的訂製鍋底 智慧型機械臂上菜 機械人傳菜 從就餐環境 服務體驗處處充滿了科技範兒,讓顧客耳目一新。最主要的智慧型公升級就是 智慧型餐廳實現了 後廚 的無人化 智慧型餐廳實現...

智解京東618 購物狂歡背後的安全暗戰

在上月剛剛結束的京東618購物節期間,京東 交出了累計下單1199億 元,累計賣出商品7億件的驚人成績單,讓人不得不嘆服京東618在網路買家中越來越強大的影響力以及網民超高的熱情和驚人的購買力。然而,在這個盛大的網路購物狂歡節背後,有多少黃牛 羊毛黨 投機者 黑客在蠢蠢欲動 伺機而出,又有多少安全人...

傳智播客上海校區帶你揭秘面試背後的「真相」

傳智播客上海校區帶你揭秘面試背後的 真相 眾所周知,想要找到乙份好工作,面試是一項很重要的環節。在各種各樣的面試中,單單依靠對於技術和業務的表述並不一定能通過整場面試,特別是在人事 和技術領導等相對經驗比較豐富的職場人面前 對此,傳智播客上海校區邾老師給出了以下建議。技巧篇 這裡所說的面試技巧並非巧...