首先,我們先新建乙個flight庫,再把資料csv檔案匯入資料庫中,準備進行下面的操作。
1.用count語句檢視總行數
2.在航班及時率表中有五個delay延遲字段,找出導致延遲次數最多的原因,延遲時間倒數第二的原因,以及各個原因累計的延遲時間。
3.顯示出2015-01-03的航班資料,要求顯示airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance如上字段
由於時間部分查詢非常多,請在時間欄位上增加索引,加快查詢速度,和剛才對比執行速度。
alter table on_time_performance add index idx_time (flightdate
);
explain
select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance
from on_time_performance where flightdate = 『2015-01-03』;
寫出快速獲取到第50-55行所用的sql語句。
select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance
from on_time_performance limit 49,6;
4.**一年內飛行航班的季節性,哪個季度航班總數多
selectquarter
,count(quarter
) as counts from on_time_performance
group byquarter
order by counts desc;
找出航班最多的乙個月是幾月份
select * from (selectmonth
,count(month
) as counts
from on_time_performance group bymonth
) month_count
order by counts desc limit 1;
5.現有乙個json檔案的airplane資料,寫一段python程式把資料轉換成csv,匯入資料庫中。然後統計飛機最多的兩個生產商。
select * from (select manufacturer,count( manufacturer ) as counts
from airplanes group by manufacturer) manufacturer_count
order by counts desc limit 2;
利用SQL 2005 CTE處理樹型資料
在現實生活中,樹型資料屢見不鮮 組織機構,產品結構,人事關係等等.記得在以往的乙個專案中,涉及到機構,人員,在對其進行處理,特別是進行統計,聚集操作的時候,我一直沒找到乙個好的方法.臨時表,檢視,程式控制.能用的辦法都用上了,但在處理效率上一直不盡如人意.歸根結底,我的感覺就是在資料庫中,對資料的操...
利用SQL 2005 CTE處理樹型資料
在現實生活中,樹型資料屢見不鮮 組織機構,產品結構,人事關係等等.記得在以往的乙個專案中,涉及到機構,人員,在對其進行處理,特別是進行統計,聚集操作的時候,我一直沒找到乙個好的方法.臨時表,檢視,程式控制.能用的辦法都用上了,但在處理效率上一直不盡如人意.歸根結底,我的感覺就是在資料庫中,對資料的操...
spark RDD處理資料集
package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...