利用SQL技能處理資料集例項(入門)

2021-10-22 06:35:19 字數 1560 閱讀 2809

首先,我們先新建乙個flight庫,再把資料csv檔案匯入資料庫中,準備進行下面的操作。

1.用count語句檢視總行數

2.在航班及時率表中有五個delay延遲字段,找出導致延遲次數最多的原因,延遲時間倒數第二的原因,以及各個原因累計的延遲時間。

3.顯示出2015-01-03的航班資料,要求顯示airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance如上字段

由於時間部分查詢非常多,請在時間欄位上增加索引,加快查詢速度,和剛才對比執行速度。

alter table on_time_performance add index idx_time (flightdate);

explain

select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance

from on_time_performance where flightdate = 『2015-01-03』;

寫出快速獲取到第50-55行所用的sql語句。

select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance

from on_time_performance limit 49,6;

4.**一年內飛行航班的季節性,哪個季度航班總數多

selectquarter,count(quarter) as counts from on_time_performance

group byquarterorder by counts desc;

找出航班最多的乙個月是幾月份

select * from (selectmonth,count(month) as counts

from on_time_performance group bymonth) month_count

order by counts desc limit 1;

5.現有乙個json檔案的airplane資料,寫一段python程式把資料轉換成csv,匯入資料庫中。然後統計飛機最多的兩個生產商。

select * from (select manufacturer,count( manufacturer ) as counts

from airplanes group by manufacturer) manufacturer_count

order by counts desc limit 2;

利用SQL 2005 CTE處理樹型資料

在現實生活中,樹型資料屢見不鮮 組織機構,產品結構,人事關係等等.記得在以往的乙個專案中,涉及到機構,人員,在對其進行處理,特別是進行統計,聚集操作的時候,我一直沒找到乙個好的方法.臨時表,檢視,程式控制.能用的辦法都用上了,但在處理效率上一直不盡如人意.歸根結底,我的感覺就是在資料庫中,對資料的操...

利用SQL 2005 CTE處理樹型資料

在現實生活中,樹型資料屢見不鮮 組織機構,產品結構,人事關係等等.記得在以往的乙個專案中,涉及到機構,人員,在對其進行處理,特別是進行統計,聚集操作的時候,我一直沒找到乙個好的方法.臨時表,檢視,程式控制.能用的辦法都用上了,但在處理效率上一直不盡如人意.歸根結底,我的感覺就是在資料庫中,對資料的操...

spark RDD處理資料集

package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...