大資料基礎知識2

小白學資料，只為記錄學習程序，對每個問題有新的理解會及時更正。

二、如何把linux本地資料上傳到hdfs

hdfs dfs -put 本地檔案路徑 hdfs檔案路徑

例：hdfs dfs -put /home/hdfs/files/test.txt /input

三、grep命令

grep使用：

grep [可選指令] 「匹配model」檔案路徑

常用指令：

-i : 表示不區分大小寫匹配

-v: 顯示不符合匹配model的行

-c: 統計符合model的字段出現的次數，不顯示具體內容

-n: 顯示符合匹配模式行所在的行號，並且顯示具體行

-a n: 顯示符合匹配model的行以及後面的n行

-b n: 顯示符合匹配model的行以及前面的n行

-c n: 顯示符合匹配model的行以及前後的n行

匹配model支援正規表示式，常用正則如下：

[a-z] : 匹配所有大寫字母

[a-z] : 匹配所有小子字母

[0-9] : 匹配所有數字

[.] : 匹配任意字元

*：匹配之前的字元任意次

?: 匹配之前的字元0或1次

<: 錨定字元開始，": 錨定字元結尾，"grep>"匹配以grep結束的行

a: 匹配a連續出現m次

a : 匹配a連續出現至少m次

a :匹配a至少出現m次，至多出現n次

大資料基礎知識

一種規模大到在獲取儲存管理分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合，具有海量的資料規模快速的資料流轉多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術，以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術，包括大規模並行處理 mpp 資料庫資料探勘分布式檔案...

大資料基礎知識（待續）

最近要參與大資料治理專案，但大資料相關知識是零，因此從頭開始了解學習。本人學習目的是用於測試，因此jindui 第二步了解mr，mapreduce，mr對hadoop來說是至關重要的，關於這個概念的理解，可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下，基於此，基本對hadoop有基本了解...

大資料相關基礎知識

apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程集群資源管理框架 4 hadoop mapreduce 基於...

大資料 基礎知識2

大資料基礎知識

大資料基礎知識（待續）

大資料相關基礎知識

相關推薦

大資料基礎知識2