根據要求對文字進行分類
(1)分類主要是運用機器學習或著深度學習技術根據不同類別資料的定義將資料分到不同的類別中。它可以解決人工標記資料的繁瑣,也可以在資訊檢索、精確推薦等領域為社會帶來便利。
(2)資料獲取-》資料預處理-》特徵工程-》資料集劃分-》模型選擇-》模型評估
(3)模型選擇。文字分類較少使用傳統的機器學習演算法,因為需要人工從文字中提取特徵,一方面人工提取到的特徵較少,另一方面人工提取到的大部分是統計特徵,不具有語義資訊,所以大部分使用深度學習來進行建模。常用的深度學習模型有cnn、rnn、lstm以及最近較流行的transformer等。一般對於類別區分較明顯的資料可以使用cnn進行建模,且模型不需要太複雜;對於分類的類別數較多或者需要進行細粒度分類的資料,需要模型提取到更多的語義資訊才會有較好的效果,所以一般使用多層的rnn及其變體,但rnn是一種序列模型,訓練只能順序進行,所以往往需要較長的訓練時間,此外,雖然理論上rnn可以保留距離較遠處的資訊,但當文字較長時,rnn效果並不好。解決的方法,目前基於「attention is all you need」這篇**,許多學者研究出了self-attention機制,從而避免使用rnn,且可以更好的提取到文字語義資訊。
創業作業主觀題
一 團隊,你對自己的團隊滿意嗎?你對組團的方式滿意嗎?為什麼?非常滿意,因為是和自己大學在班裡最好的朋友組成的,互相之間的了解信任都比較多,一起組團隊的過程比較順利。對組團的方式也比較滿意啦,自由組團其實挺好的。二 專案 你對自己的專案滿意嗎?寫計畫書 製作ppt及路演展示有什麼感受?滿意,寫計畫書...
資料庫複試 安全性(主觀題)
1.什麼是資料庫的安全性?正確答案 資料庫的安全性是指保護資料庫以防止不合法的使用所造成的資料洩露 更改或破壞。2.資料庫安全性和計算機系統的安全性有什麼關係?正確答案 安全性問題不是資料庫系統所獨有的,所有計算機系統都有這個問題。只是在資料庫系統中大量資料集中存放,而且為許多終端使用者直接共享,從...
聊聊產品筆試中主觀題怎麼做
2.快速組織答案 3.實操講解 面試時面試官可能也會突然考乙個主觀題,比如臨場分析乙個產品。實習時mentor開會突然問你對這個方案怎麼看 筆試題相關行業基本知識 產品設計基本功 合格標準1 思維活躍 很好的邏輯表達能力 問題舉例 自己說了很多話,但不知道自己在說什麼 合格標準2 給出展示思考成果的...