hive入門學習 hive的調優二）

hive入門學習：hive的調優(二)

hive會把查詢轉化成為乙個或者多個階段，這樣的階段可以是mapreduce階段，抽樣階段，合併階段，limit階段等等。預設情況下hive一次只會執行乙個階段，不過某些特定的階段可能會包含眾多的階段，而這些階段並非互相依賴，可以並行執行，這樣就可以大幅度的縮短job的執行時間。如下配置來設定：set hive.exec.parallel=true來開啟並行執行。

hive提供的嚴格模式可以很好的幫助使用者減少那些意想不到的不好的影響。可以通過set hive.mapred.mode=strict;來開啟嚴格模式。嚴格模式分為以下的三種:

(1)對於分割槽表，在where字句中必須包含分割槽欄位的過濾條件，否則就不允許執行。也就是說，使用者不可以掃瞄所有的分割槽。因為分割槽表通常都會含有很大的資料集，並且增加迅速，不進行過濾會載入很多的資料造成i/o瓶頸。

(2)對於使用order by 語句的查詢，必須使用limit語句來限制。因為order by會把所有的資料都shuffle到同乙個reducer中。造成單節點壓力過大。limit會限制資料的大小，僅僅對limit的資料進行排序。

(3)限制笛卡爾積的查詢。在傳統的關係型資料庫中，ab兩個表的鏈結用where語句來進行filter，然後會把where轉化成為高效的on關鍵字進行鏈結，但是hive並不存在這種優化，當資料表足夠大的時候，就會出現不可控的情況。所以不能使用where關鍵字，只能使用on關鍵字。

hive入門學習 hive的調優二）

hive效能調優

Hive效能調優

Hive引數調優

hive入門學習 hive的調優 二）

hive效能調優

Hive效能調優

Hive引數調優

相關推薦

hive入門學習 hive的調優二）