1. 下列哪些是語料庫的可能性特徵?
1. 文字中詞的總數
2. 布林特徵——文字中詞的出現
3. 詞的向量標註
4. 語音標註部分
5. 基本依賴性語法
6. 整個文字作為乙個特徵
a 1
b 12
c 123
d 1234
e 12345
f 123456
2. 下列那種模型可以被用於文字相似度(document similarity)問題?
a 在語料中訓練乙個由詞到向量(word 2 vector)的模型來對文字中呈現的上下文語境進行學習
b 訓練乙個詞包模型(a bag of words model)來對文字中的詞的發生率(occurrence)進行學習
c 建立乙個文獻檢索詞矩陣(document-term matrix)並且對每乙個文字應用余弦相似性
d 上述所有方法均可
3. 文字分類模型組成部分的正確順序是:
1. 文字清理(text cleaning)
2. 文字標註(text annotation)
3. 梯度下降(gradient descent)
4. 模型調優(model tuning)
5. 文字到**器(text to predictors)
a 12345
b 13425
c 12534
d 13452
4. 關於無語境依賴關係圖(context-free dependency graph),句子裡有多少子決策樹(sub-trees)?
5. word2vec 模型是一種用於給文字目標建立向量標記的機器學習模型。
對於word2vec,它包含多個深度神經網路,這麼說對麼?
a 對
b 錯
6. 下列哪種方法不是靈活文字匹配的一部分?
a 字串語音表示(soundex)
b 語音發聲雜湊(metaphone)
c 編輯距離演算法(edit distance)
7. 參閱以下的文件詞矩陣
在整個語料庫中使用最大次數的詞和它的詞頻分別是?
a t6,2/5
b t3,3/6
c t4,2/6
d t1,2/6
8. 參閱以下的文件詞矩陣
語料庫中最常見和最稀少的詞條分別是什麼?
a t4、t6
b t3、t5
c t5、t1
d t5、t6
9. 參閱以下的文件詞矩陣
下面哪個文件包含相同數量的詞條,並且在整個語料庫中其中乙個文件的詞數量不等同於其他任何文件的最低詞數量。
a d1 和 d4
b d6 和 d7
c d2 和 d4
d d5 和 d6
10. 在包含 n 個文件的語料庫中,隨機選擇乙個文件。該檔案總共包含 t 個詞,詞條「資料」出現 k 次。
如果詞條「資料」出現在檔案總數的數量接近三分之一,則 tf(詞頻)和 idf(逆文件頻率)的乘積的正確值是多少?
a kt * log(3)
b k * log(3) / t
c t * log(3) / k
d log(3) / kt
獲取答案和詳細的答案解析:
演算法題 含答案和解析
1.某段文字中各個字母出現的頻率分別是,使用哈夫曼編碼,則哪種是可能的編碼 a a 001 b 000 h 01 i 10 o 11 b a 0000 b 0001 h 001 o 01 i 1 c a 000 b 001 h 01 i 10 o 00 d a 0000 b 0001 h 001 o...
演算法題 含答案和解析
1.十字鍊錶是無向圖的一種儲存結構 a 對 b 錯 2.以下關於廣義表的敘述中,正確的是 a 廣義表是0個或多個單因素或子表組成的有限序列 b 廣義表至少有乙個元素是子表 c 廣義表不可以是自身的子表 d 廣義表不能為空表 3.kmp演算法的最大特色是指示主串的指標不需回溯 a 正確 b 錯誤 4....
演算法題 含答案和解析
1.分支限界法與回溯法都是在問題的解空間樹t上搜尋問題的解,關於二者說法中正確的是 a 求解目標不同,搜尋方式相同 b 求解目標不同,搜尋方式也不同 c 求解目標相同,搜尋方式不同 d 求解目標相同,搜尋方式也相同 2.下列程式段,迴圈體執行次數是 y 2 while y 16 y 2 print ...