關於group by的用法原理

寫在前面的話：用了好久group by，今天早上一覺醒來，突然感覺group by好陌生，總有個筋別不過來，為什麼不能夠select * from table group by id，為什麼一定不能是*，而是某乙個列或者某個列的聚合函式，group by 多個字段可以怎麼去很好的理解呢？不過最後還是轉過來了，簡單寫寫吧，大牛們直接略過吧。

*****====正文開始**********=

先來看下表1，表名為test：

表1

執行如下sql語句：

selectnamefromtest

groupbyname

你應該很容易知道執行的結果，沒錯，就是下表2：

表2

可是為了能夠更好的理解「group by」多個列「和」聚合函式「的應用，我建議在思考的過程中，由表1到表2的過程中，增加乙個虛構的中間表：虛擬表3。下面說說如何來思考上面sql語句執**況：

1.from test：該句執行後，應該結果和表1一樣，就是原來的表。

2.from test group by name：該句執行後，我們想象生成了虛擬表3，如下所圖所示，生成過程是這樣的：group by name，那麼找name那一列，具有相同name值的行，合併成一行，如對於name值為aa的，那麼<1 aa 2>與<2 aa 3>兩行合併成1行，所有的id值和number值寫到乙個單元格裡面。

3.接下來就要針對虛擬表3執行select語句了：

（1）如果執行select *的話，那麼返回的結果應該是虛擬表3，可是id和number中有的單元格裡面的內容是多個值的，而關聯式資料庫就是基於關係的，單元格中是不允許有多個值的，所以你看，執行select * 語句就報錯了。

（2）我們再看name列，每個單元格只有乙個資料，所以我們select name的話，就沒有問題了。為什麼name列每個單元格只有乙個值呢，因為我們就是用name列來group by的。

（3）那麼對於id和number裡面的單元格有多個資料的情況怎麼辦呢？答案就是用聚合函式，聚合函式就用來輸入多個資料，輸出乙個資料的。如cout(id)，sum(number)，而每個聚合函式的輸入就是每乙個多資料的單元格。

（4）例如我們執行select name,sum(number) from test group by name，那麼sum就對虛擬表3的number列的每個單元格進行sum操作，例如對name為aa的那一行的number列執行sum操作，即2+3，返回5，最後執行結果如下：

（5）group by 多個欄位該怎麼理解呢：如group by name,number，我們可以把name和number 看成乙個整體字段，以他們整體來進行分組的。如下圖

（6）接下來就可以配合select和聚合函式進行操作了。如執行select name,sum(id) from test group by name,number，結果如下圖：

至此，我已經對我自己對如此簡單的問題有如此天馬行空的想法所折服，洗洗睡覺。

（完）超好用的 pandas 之 groupby：

關於group by的用法 原理

關於group by的用法 原理

關於group by的用法 原理

關於group by的用法 原理

相關推薦

關於group by的用法原理

關於group by的用法原理

關於group by的用法原理

關於group by的用法原理