小白學資料,只為記錄學習程序,對每個問題有新的理解會及時更正。
二、如何把linux本地資料上傳到hdfs
hdfs dfs -put 本地檔案路徑 hdfs檔案路徑
例:hdfs dfs -put /home/hdfs/files/test.txt /input
三、grep命令
grep使用:
grep [可選指令] 「匹配model」 檔案路徑
常用指令:
-i : 表示不區分大小寫匹配
-v: 顯示不符合匹配model的行
-c: 統計符合model的字段出現的次數,不顯示具體內容
-n: 顯示符合匹配模式行所在的行號,並且顯示具體行
-a n: 顯示符合匹配model的行以及後面的n行
-b n: 顯示符合匹配model的行以及前面的n行
-c n: 顯示符合匹配model的行以及前後的n行
匹配model支援正規表示式,常用正則如下:
[a-z] : 匹配所有大寫字母
[a-z] : 匹配所有小子字母
[0-9] : 匹配所有數字
[.] : 匹配任意字元
*:匹配之前的字元任意次
?: 匹配之前的字元0或1次
<: 錨定字元開始,": 錨定字元結尾,"grep>"匹配以grep結束的行
a: 匹配a連續出現m次
a : 匹配a連續出現至少m次
a :匹配a至少出現m次,至多出現n次
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料相關基礎知識
apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...