資料解析
解析資料,
python -m wikiextractor.wikiextractor ./kowiki-20201001-pages-articles.xml.bz2 -o ./output_dir -b 10m --json --processes n讀取資料-o 輸出資料夾
-b 輸出檔案大小限制,超出後存入新的檔案
–json 輸出檔案資料儲存方式
–processes 程序數
其他引數可參見github
讀取所有解析後的檔案,將字典格式的資料讀取到乙個列表中
import os
import json
wikidata_dir =
'./kowiki'
defload_wikidata
(file_dir)
: wiki_data =
# 獲取檔名
forfile
in os.listdir(file_dir)
: file_path = os.path.join(file_dir,
file
)# 讀取檔案資料
with
open
(file_path,
'r', encoding=
'utf-8'
)as f:
data = f.readlines(
)for i in data:
# 每行末尾有個『\n』,所以i[:-1]:-
1]))
return wiki_data
data = load_wikidata(wikidata_dir)
獲取到的資料如下圖:
解析 JSON 格式資料
比起 xml,json的主要優勢在於它的體積更小,在網路上傳輸的時候可以更省流量。但缺點在於,它的語義性較差,看起來不如xml 直觀。我們還需要在c apache apache2 htdocs目錄中新建乙個 get data.json 的 檔案,然後編輯這個檔案,並加入如下 json 格式的內容 修...
關於時間格式資料的保留問題
儲存年月日格式的時間資料 select trunc sysdate from dual 時間格式可以直接進行加減數字 select trunc sysdate 3 from dual 時間相減 select trunc sysdate to date 2020 1 1 yyyy mm dd from...
JSON資料解析(各種格式)
一 解析物件 1.不帶物件名 格式 解析方法 jsonobject json new jsonobject jsostring person.setid json.getint id person.setname json.getstring name person.setaddress json....