解析wiki資料(帶標點,保留格式)

2021-10-25 03:31:34 字數 988 閱讀 9314

資料解析

解析資料,

python -m wikiextractor.wikiextractor ./kowiki-20201001-pages-articles.xml.bz2 -o ./output_dir -b 10m --json --processes n

-o 輸出資料夾

-b 輸出檔案大小限制,超出後存入新的檔案

–json 輸出檔案資料儲存方式

–processes 程序數

其他引數可參見github

讀取資料

讀取所有解析後的檔案,將字典格式的資料讀取到乙個列表中

import os

import json

wikidata_dir =

'./kowiki'

defload_wikidata

(file_dir)

: wiki_data =

# 獲取檔名

forfile

in os.listdir(file_dir)

: file_path = os.path.join(file_dir,

file

)# 讀取檔案資料

with

open

(file_path,

'r', encoding=

'utf-8'

)as f:

data = f.readlines(

)for i in data:

# 每行末尾有個『\n』,所以i[:-1]:-

1]))

return wiki_data

data = load_wikidata(wikidata_dir)

獲取到的資料如下圖:

解析 JSON 格式資料

比起 xml,json的主要優勢在於它的體積更小,在網路上傳輸的時候可以更省流量。但缺點在於,它的語義性較差,看起來不如xml 直觀。我們還需要在c apache apache2 htdocs目錄中新建乙個 get data.json 的 檔案,然後編輯這個檔案,並加入如下 json 格式的內容 修...

關於時間格式資料的保留問題

儲存年月日格式的時間資料 select trunc sysdate from dual 時間格式可以直接進行加減數字 select trunc sysdate 3 from dual 時間相減 select trunc sysdate to date 2020 1 1 yyyy mm dd from...

JSON資料解析(各種格式)

一 解析物件 1.不帶物件名 格式 解析方法 jsonobject json new jsonobject jsostring person.setid json.getint id person.setname json.getstring name person.setaddress json....