大資料是不能使用傳統計算技術處理的大型資料集的集合。這些資料集的測試涉及各種工具,技術和框架。大資料涉及資料建立,儲存,檢索和分析,數量,多樣性和速度都要求非常高。
更多的是驗證其資料處理而不是單個功能,效能和功能測試*是關鍵都很重要。
使用集群和其他支援元件來驗證tb級資料的處理。它需要高水平的測試技能,因為處理非常快。處理有三種型別
資料質量也是大資料測試的重要因素,檢查資料的質量是重要環節,需要檢查一致性、有效性,重複,完整性等。
資料分段驗證
也稱為pre-hadoop階段,涉及處理驗證。
像工具talend,datameer,可用於資料分段的驗證
mapreduce驗證
驗證每個節點上的業務邏輯驗證,然後在多個節點執行後驗證它們,確保
輸出驗證階段
生成輸出資料檔案,並準備根據需要將其移至edw(企業資料倉儲)或其他系統。
hadoop處理非常大量的資料,資源密集。架構測試對於確保大資料專案的成功至關重要。系統設計不當會導致效能下降,系統可能無法滿足要求。至少,需要測試效能和failover 。
效能測試包括測試作業完成時間,記憶體利用率,資料吞吐量和類似的系統指標。failover 測試驗證資料處理在節點故障的情況下無縫轉移。
大資料的效能測試包括兩個主要方面:
效能測試方法
大資料應用程式的效能測試涉及大量結構化和非結構化資料的測試,它需要特別的測試方法。
效能測試的方式
效能測試的引數屬性
傳統資料庫測試
大資料測試
資料
使用結構化資料
同時處理結構化資料和非結構化資料
測試方法定義明確且成熟
探索中手工抽樣或自動化完全驗證
抽樣的挑戰很大
基礎設施
需要特殊的測試環境,因為檔案大小有限
需要特殊的測試環境,因為大的資料和檔案(hdfs)
驗證工具
excel的巨集、基於ui的自動化工具、python等
從mapreduce到hiveql
容易上手
較有技術難度。
大資料集群
大資料工具
nosql
couchdb,mongodb,cassandra,redis,zookeeper,hbase
mapreduce
hadoop,hive,pig,cascading,oozie,kafka,s4,mapr,flume
儲存s3,hdfs(hadoop分布式檔案系統)
伺服器處理
r,yahoo!pipes,mechanical turk,bigsheets,datameer
效能測試的挑戰
大資料入門Hadoop安裝
偽分布式 就是所有的程式都在一台主機上跑,完全是分布式的工作模式,但是不是真正的分布式 先上傳hadoop的安裝包到伺服器上去 home hadoop 注意 hadoop2.x的配置檔案 hadoop home etc hadoop 偽分布式需要修改5個配置檔案 3.1配置hadoop hdfs w...
快速入門大資料
本人30歲,從學大資料到現在有6年的時間,我談一下我的經驗分享 我自己的經歷 剛開始大資料是看書,一頁頁的看書,因為身邊有乙個好的資源,有問題可以問我朋友,後來發現看大資料的零基礎書籍很難看下去,很多專業的東西對於乙個新手根本就看不懂,沒有什麼效率。在這裡我個人建議,初學不要看書,我的建議是學完一部...
hadoop快速入門
大資料核心含義是一種技術革新 隨著網際網路時代的深入,產生了越來越多的資料,比如 1 電商產生的大量使用者瀏覽 購物行為 2 移動運營商記錄了大量的使用者上網行為 3 網路輿情分析 營銷支撐 4 金融系統徵信分析 上述的這些需求,用以前的傳統技術無法勝任,需要有乙個全新的技術體系來支撐 在此背景之下...