以plato使用的metalwoz資料集的insurance為例,進行語料的漢化過程。
先是使用了有道雲的翻譯介面,呼叫幾百次之後,被封了不能用。
**見:
參考:文件
申請開發者
將txt檔案轉化為csv檔案
使用plato提供的工具
plato/example/config/parser/parse_metalwoz.yaml
指明txt檔案路徑,即上述翻譯到中文並分詞之後的檔案。
---
package: plato.utilities.parser.parse_metal_woz
class: parser
arguments:
data_path: /users/huihui/data/metalwoz-v1/dialogues/shopping.txt
plato parse --config parse_metalwoz.yaml
解析之後的檔案在data/metalwoz.csv
用這個csv檔案,就可以訓練模型了
Effective Java 學習筆記 23
不要在新 中使用原生態型別,而應該使用泛型。泛型的優點 1.編譯時就會進行型別檢查。當向乙個容器中裝入物件時,編譯器會檢查,插入的例項是不是前面宣告的型別。而不用等到執行時才會發現,而丟擲classcastexception.2.從集合中取元素不用再進行手工轉換,編譯器會替你進行隱式的轉換。盡量使用...
VTK學習筆記2 3
整理於 科學計算三維視覺化 資料集 dataset 點 point 和資料 data 點之間有兩種形態 連線 非連線多個相關的點組成單元點之間的連線可以是顯式也可以是隱式資料可以是標量 scalar 和向量 vector 資料集 dataset datasets 包括 5種資料集 imagedata...
Python學習筆記 23
classa 直接在類中定義的屬性是類屬性 類屬性可以通過類或者類的例項訪問 但類屬性只能通過類物件修改,無法通過例項修改 count 5def init self 例項屬性,通過例項物件新增的屬性 例項屬性只能通過例項物件來訪問修改,類物件無法訪問修改 self.name 小王 例項方法 在類中定...