郵件是由很多的單詞組成的, 首先分析郵件中什麼樣的內容可能會是垃圾郵件, 比如but, discount等, 我們將這些單詞都一一羅列出來, 構成乙個列向量
將一封郵件進行單詞劃分, 在判斷郵件中的單詞在我們定義的垃圾郵箱詞彙的列向量中存不存在, 如果存在則置1, 不存在則置0, 這樣就構成了乙個輸入樣本了, 特徵就是我們定義的垃圾郵箱詞彙列向量, 為了方便理解, 下面通過乙個簡單的例子解釋一下
from tom
hello, i'd like to buy some oranges which is at 80% discount, do you want me to some for ya.
yours.
文字識別 文字識別的應用
是否有過這樣的經歷,在網上發現一篇好文,卻沒辦法複製,怎麼辦?手動抄錄嗎,我想如果沒有ocr,大部分人會這麼做。ocr是一種影象處理技術,又叫文字識別,能夠將影象中不可複製的文字轉換成可編輯的文字形式,簡單來說,使用者對無法複製的文字進行拍照,通過文件識別軟體進行識別,即可獲得可編輯 可儲存的電子文...
語音識別的難點
儘管語音識別的研究已有半個世紀了,但現有的語音識別系統仍存在許多困難,還遠遠達不到實用化的要求,主要表現在 1 魯棒性 目前的語音識別系統對環境條件的依賴性強,要求保持測試條件和訓練條件一致,否則系統效能會嚴重下降。2 雜訊問題 現有的語音識別系統大多只能工作在安靜的環境下,一旦在雜訊環境下工作,講...
人臉識別的流程
記錄一下目前對人臉識別流程及識別方法的理解,以後隨著認識的提公升不斷更新 在整個過程中所使用的都是灰度化之後的。為什麼要轉化為灰度?1.識別物體最關鍵的部分是,找到物體的邊緣,就是的梯度,的梯度計算用到的就是灰度化之後的。2.顏色容易受到光照影響,難以提供關鍵資訊,最重要的是灰度化之後可以加快計算速...