這個場景的實現主要有以下幾個方面的工作:
1、音訊轉寫為文字—-需要乙個轉寫能力較高的模型
2、資料預處理—對資料初步進行規範化處理,便於後續分析
3、文字的分詞—對文字進行正確的分詞(基於實際場景需要新增專業詞彙)
4、對每乙個詞進行權重分析—用tfidf方法實現
5、視覺化展示—-用詞雲工具來展示
音訊轉寫文字:
資料預處理:
這個部分根據實際場景,我們先去掉停用詞,標點等非關鍵因素
文字的分詞:
對文字的分詞,我們採用jieba分詞,jieba分詞庫是乙個便於使用,效果較好的乙個分詞庫。它的分詞模式主要有三種:
1)精確模式,試圖將句子最精確地切開,適合文字分析;
2)全模式,把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義;
3)搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
且支援繁體分詞以及自定義詞庫
對每乙個詞進行權重分析:
tfidf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。實際場景中,存在大量的關鍵的詞彙,這些詞彙往往代表著關鍵資訊,所以我們採用tfidf來把抓取這些關鍵資訊,再通過詞云表示出來。
視覺化展示:
這裡主要介紹乙個視覺化工具—詞云,這個工具可以把我們所有資訊展示出來,並且越是重要的資訊,字型會越大,有利於我們catch關鍵因素
在這裡我們用西遊記女兒國白話文文本來展示,通過詞云可以快速的了解到劇情,師徒四人路過女兒國,三藏師傅被女兒國女王看中,差點就要成婚了。
快速了解 Redis
比如 a 首頁一天有 100 萬人訪問,其中有乙個板塊為推薦新聞。要是直接從資料庫查詢,那麼一天就要多消耗 100 萬次資料庫請求。使用 redis 可以將這種熱點資料存到 redis 記憶體 中,要用的時候直接從記憶體取,極大的提高了速度和節約了伺服器的開銷 redis 也可用於訊息佇列,通過 l...
快速了解 Redis
比如 a 首頁一天有 100 萬人訪問,其中有乙個板塊為推薦新聞。要是直接從資料庫查詢,那麼一天就要多消耗 100 萬次資料庫請求。使用 redis 可以將這種熱點資料存到 redis 記憶體 中,要用的時候直接從記憶體取,極大的提高了速度和節約了伺服器的開銷 redis 也可用於訊息佇列,通過 l...
快速了解serverless
serverless 無伺服器計算架構,是雲計算時代的一種革命性架構模式,可以看做下一代計算資源架構 serverless概念主要思想就是無需使用者關注支撐應用服務的底層主機資源服務,因此使用者在一定程度上不能設定後端地具體資源配置檔案,所需要的資源數量由平台動態進行排程,簡單的說就是 去基礎架構 ...