標題相似度演算法 NLP 基於文字相似度的商品推薦

2021-10-14 09:20:56 字數 707 閱讀 5404

課程簡介:

自然語言處理是人工智慧皇冠上的「明珠」,他是讓機器模仿人類,理解人類的關鍵。目前這項技術,已經應用在機器翻譯、語音助手、自動問答、知識圖譜、中文處理等多個領域。

本門課程講解了nlp技術中基礎的分詞、詞向量等技術,而這些知識也是所有nlp專案中的核心關鍵技術。我們以乙個完整的電商標題相似度任務為例,帶你體驗如何使用nlp技術完成實際的工程專案,快速掌握nlp的核心技術。

講師介紹

祖鑫奇某上市公司一線演算法工程師3年nlp開發經驗具備電商導購機械人、文字處理、複雜nlp模型設計和調優經驗

課程目錄:

ai發展歷程與現狀

nlp簡述與任務介紹

中文分詞

anaconda與jupyter使用簡介

python實現中文分詞

文字特徵表示

python實現tf-idf

余弦相似度

基於tf-idf的文字相似度匹配

用python直接實現tf-idf文字相似度計算

word2vec原理與實現

基於word2vec的文字相似度匹配

nlp最新技術簡述

NLP 文字相似度(一)

乙份文字,從結構上劃分可以是 字 詞 句 段 篇。文字比較的粒度是詞,一篇文章,可以劃分成n個不同的詞,選取其中包含重要資訊的m個詞作為這片文章的特徵。m個詞構成了m維的向量,兩個文字之間的比較就是兩個m維向量之間的比較。向量之間如何比較?我們可以採用余弦相似度,其描述如下 對於n維的向量a,b,其...

文字相似度演算法

1.基於詞向量 余弦相似度 分詞 列出兩個句子的並集 計算詞頻向量 計算余弦值,適合基於語義的相似度分析 曼哈頓距離 歐幾里得距離 明式距離 是前兩種距離測度的推廣 在極限情況下的距離是切比雪夫距離 2.基於字元的 編輯距離 simhash,對於短小的文字,計算相似度並不十分準確,更適用於較長的文字...

文字相似度演算法

usr bin env python coding utf 8 time 2021 11 12 15 44 我們再寫一遍這個演算法 from icecream import ic import jieba import jieba.analyse from gensim import corpora...