非結構化資料是乙個Oxymoron

2021-09-12 23:58:26 字數 875 閱讀 5335

嚴格來說,「非結構化資料」是乙個矛盾。資料必須具有易於理解的結構。通過「非結構化資料」,人們通常指的是具有非**結構的資料。

**資料 是**中的資料。每行對應乙個主題,每列對應一種測量。這是最容易使用的資料。

非**資料 可能意味著除**資料之外的任何其他資料,但在實踐中它通常意味著 文字,或者它可能意味著具有 圖形結構 或某種其他結構的資料。

更富有成效的討論

我的觀點不是對語言的使用進行狡辯,而是提出乙個建設性的建議: 說明結構資料有什麼,而不是它沒有的結構。

關於「非結構化資料」的討論通常是徒勞的,因為兩個人可以使用這個術語,它有兩個不同的含義,並認為它們是不一致的。也許一位高管和銷售代表握手達成一項並非真正達成協議的協議。

最終,必須討論結構資料實際上具有什麼,而不是它缺乏什麼結構,以及該結構可被利用的程度。盡快進行討論可以節省很多錢。

自由文字字段

一種形式的「非結構化」資料是自由文字字段。這些字段不是沒有結構的。它們通常包含散文,用特定語言編寫,或者至多包含少量語言。那是乙個開始。從上下文應該有乙個更可利用的結構。該文字是病理報告嗎?facebook狀態?法律意見?

客戶端將詢問如何取消標識自由文字字段。你不能。如果文字是真正 自由的,那麼根據定義它可以是任何東西。但是如果有一些已知的結構,那麼可能有一些實用的方法來匿名化資料,特別是如果有一些容錯的錯誤。

例如,程式可以搜尋並掩蓋可能的名稱。這樣的程式會找到「伊莉莎白」但可能找不到「女王」。因為只有幾個皇后[1],這將是乙個隱私洩露。此類軟體也會產生誤報,例如掩蓋女王伊利沙伯二世的遠洋班輪的名稱。[2]

筆記[1]維基百科目前的主權君主名單中僅列出了兩名女性,即英國女王伊利沙伯二世和丹麥女王瑪格麗特二世。

[2]該船,也稱為qe2,是伊利沙伯二世女王,而君主是女王伊利沙伯二世。

結構化資料 半結構化資料 非結構化資料

結構化資料 即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料 所謂半結構化資料,就是介於完全結構化資料 如關係型資料庫 物件導向資料庫中的資料 和完全無結構的資料 如聲音 影象檔案等 之間的資料,html文件就屬於半結構化資料。它一般是自描述的,資料的結構和內容混在一起,沒有明顯的區分...

結構化資料 半結構化資料和非結構化資料

本文 在實際應用中,我們會遇到各式各樣的資料庫如nosql非關聯式資料庫 memcached,redis,mangodb rdbms關聯式資料庫 oracle,mysql等 還有一些其它的資料庫如hbase,在這些資料庫中,又會出現結構化資料,非結構化資料,半結構化資料,下面列出各種資料型別 結構化...

結構化資料 半結構化資料和非結構化資料

結構化資料 半結構化資料和非結構化資料 結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。一般特點是 資料以行為單位,一行資料表示乙個實體的資訊,每一行資料的屬性是相同的。舉乙個例子 id name age gender 1 lyh 12 male 2 liangyh 13 fe...