機器學習專案階段

2021-09-25 22:25:41 字數 519 閱讀 5328

2.資料預處理。資料處理大概會佔到整個50%-70%的工作量,通過資料洗清、分詞、詞性標註、去停用詞四個大的方面來完成語料的預處理工作。

3.特徵工程。做完語料預處理之後,接下來需要考慮如何把分詞之後的字和詞語表示成計算機能夠計算的型別。把中文分詞的字串轉換成數字,有兩種常用的表示模型分別是詞袋模型和詞向量。

4.特徵選擇。構造好的特徵向量,是要選擇合適的、表達能力強的特徵。特徵選擇是乙個很有挑戰的過程,更多的依賴於經驗和專業知識,並且有很多現成的演算法來進行特徵的選擇。

5.模型訓練。對於不同的應用需求,我們使用不同的模型,傳統的有監督和無監督等機器學習模型,如 knn、svm、***** bayes、決策樹、gbdt、k-means 等模型;深度學習模型比如 cnn、rnn、lstm、 seq2seq、fasttext、textcnn 等。

6.評價指標。訓練好的模型,上線之前要對模型進行必要的評估,目的讓模型對語料具備較好的泛化能力。

7.模型上線應用。模型線上應用,線下訓練模型,然後將模型做線上部署,發布成介面服務以供業務系統使用。

機器學習課程學習階段總結

邏輯回歸是一種分類演算法,和之前的線性回歸不是同一類問題,但是對於處理問題上有相同的思想。對於線性回歸問題,有較容易理解的思路。首先指定乙個形式確定的 h x tx 然後根據所有樣本計算代價函式,距離的平方取平均再乘個係數 j 1 2m m i 1 h x i y i 2 簡單的理解就是根據假設函式...

機器學習專案

minimal and clean examples of machine learning algorithms implementations 自製機器學習演算法庫 機器學習演算法python實現 演算法 資料結構 python 劍指offer 機器學習 leetcode 機器學習演算法專案 用...

機器學習專案流程

在微博上看到七月演算法寒老師總結的完整機器的學習專案的工作流程,結合天池比賽的經歷寫的。現在機器學習應用非常流行,了解機器學習專案的流程,能幫助我們更好的使用機器學習工具來處理實際問題。1.理解實際問題,抽象為機器學習能處理的數學問題 理解實際業務場景問題是機器學習的第一步,機器學習中特徵工程和模型...