記一次sparksql讀取oracle資料優化過程

sparksql提供外接關係型資料庫的介面如下，

def jdbc(
url: string,
table: string,
columnname: string,
lowerbound: long,
upperbound: long,
numpartitions: int,
connectionproperties: properties): dataframe

從上述介面可知，columnname列必須是整形型別，在現實使用場景中，並不一定總是存在整形列，且表中的整形列值如果不是分布均勻的話，很容易就會出現資料傾斜現象。

如果不使用上述介面，而是使用如下

def jdbc(url: string, table: string, properties: properties): dataframe

便存在效能問題，即僅有乙個task去讀取oracle中的資料

oracle存在兩個偽列：rownum、rowid。偽劣，即表中不存在的列。rownum是邏輯存在的、整形列，且是自增的。rowid是物理存在的，其值是一串隨機數，表徵該記錄的位置。

rownum在select語句中，會對查詢結果集進行編號，利用這個特點，我們可以利用sparksql jdbc介面去實現分布式多工去讀取oracle資料，具體思路如下：

select max(rownum) ,min(rownum) from表名1，查詢最大序列號、最小序列號。

預定義乙個task處理多少條記錄，然後對上述的max、min區間進行等值劃分，得出並行度，即上述介面中的numpartitions變數值。

dataframe = sqlcontext.read.jdbc(url, select表名1.*, rownum from表名1, rownum, minvalue, maxvalue, numpartitions, prop)

丟棄「邏輯列」drop(rownum)

記一次讀取資料的經歷

乙個研究生同學因為學習需要，想提取乙個的資料，然後把這些資料都放入excel當中。剛開始我很不在意，以前什麼樣的爬蟲沒見過，這次不過是要把資料放入excel中而已。於是我在網上找到乙個結合php生成excel的工具 phpexcel 然後寫了乙個簡單的程式，結果！失敗了 1.需要讀取的資料太多，一...

記一次除錯

這是我最近幾個月來遇到的最棘手的乙個問題昨天花了4個小時找出第一層次的原因這個糾結啊，本來和老婆說好準時下班回家吃飯的，結果被這個問題拖了老久。這是乙個gradle的plugin，用來resolve公司內部的dependency的，弄完了跑測試專案的，拋乙個npe，而且npe還不在自己的裡面。...

記一次 EqualsAndHashCode的疑惑

lombok的使用真的是讓開發人員欲罷不能，乙個 data不管有多少屬性全部搞定，以後加字段也不用從新生成get和set方法。不過這裡還是有乙個小坑需要注意一下，舉個例子 public class equalsandhashcodetest data noargsconstructor access...

記一次sparksql讀取oracle資料優化過程

記一次讀取資料的經歷

記一次除錯

記一次 EqualsAndHashCode的疑惑

相關推薦