ORACLE in與exists語句的區別

業務問題大概可以這樣描述，乙個父表，乙個子表，查詢的結果是找到子表中沒有使用父表id的記錄，這種情況估計很多系統都會牽涉得到。讓我們來舉乙個例子：

表一：父表 parent

表二：子表 childen

父表儲存父親，子表儲存孩子，然後通過pid和父表關聯，查詢需要的結果是找到尚未有孩子的父親。

我們來看一下查詢語句的寫法：

select * from parent where id not in (select pid　from childen)

這種標準的寫法在子表存在50萬條的記錄的時候，查詢時間超過了10秒，遠遠大於原來的sql server伺服器的一秒。我在解決的時候想到了乙個方法：

select * from parent where id in

( select id from parent minus select pid　from childen )

正常理解下，這個語句應該更加費時，但是事實完全出乎意料，這條語句不僅僅在子表存在大量記錄的情況下速度良好，在子表少量資料的情況下速度也非常的好，基本在1秒內完成。

select * from a

where id in(select id from b)

以上查詢使用了in語句,in()只執行一次,它查出b表中的所有id欄位並快取起來.之後,檢查a表的id是否與b表中的id相等,如果相等則將a表的記錄加入結果集中,直到遍歷完a表的所有記錄.

它的查詢過程類似於以下過程

list resultset=;

array a=(select * from a);

array b=(select id from b);

for(int i=0;i

for(int j=0;j

if(a[i].id==b[j].id) }}

return resultset;

可以看出,當b表資料較大時不適合使用in(),因為它會b表資料全部遍歷一次.

如:a表有10000條記錄,b表有1000000條記錄,那麼最多有可能遍歷10000*1000000次,效率很差.

再如:a表有10000條記錄,b表有100條記錄,那麼最多有可能遍歷10000*100次,遍歷次數大大減少,效率大大提公升.

結論:in()適合b錶比a表資料小的情況

select a.* from a a

where exists(select 1 from b b where a.id=b.id)

以上查詢使用了exists語句,exists()會執行a.length次,它並不快取exists()結果集,因為exists()結果集的內容並不重要,重要的是結果集中是否有記錄,如果有則返回true,沒有則返回false.

它的查詢過程類似於以下過程

list resultset=;

array a=(select * from a)

for(int i=0;i

if(exists(a[i].id)

}return resultset;

當b錶比a表資料大時適合使用exists(),因為它沒有那麼遍歷操作,只需要再執行一次查詢就行.

如:a表有10000條記錄,b表有1000000條記錄,那麼exists()會執行10000次去判斷a表中的id是否與b表中的id相等.

如:a表有10000條記錄,b表有100000000條記錄,那麼exists()還是執行10000次,因為它只執行a.length次,可見b表資料越多,越適合exists()發揮效果.

再如:a表有10000條記錄,b表有100條記錄,那麼exists()還是執行10000次,還不如使用in()遍歷10000*100次,因為in()是在記憶體裡遍歷比較,而exists()需要查詢資料庫,我們都知道查詢資料庫所消耗的效能更高,而記憶體比較很快.

結論:exists()適合b錶比a表資料大的情況

當a表資料與b表資料一樣大時,in與exists效率差不多,可任選乙個使用.