利用SQL技能處理資料集例項（入門）

首先，我們先新建乙個flight庫，再把資料csv檔案匯入資料庫中，準備進行下面的操作。

1.用count語句檢視總行數

2.在航班及時率表中有五個delay延遲字段，找出導致延遲次數最多的原因，延遲時間倒數第二的原因，以及各個原因累計的延遲時間。

3.顯示出2015-01-03的航班資料，要求顯示airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance如上字段

由於時間部分查詢非常多，請在時間欄位上增加索引，加快查詢速度，和剛才對比執行速度。

alter table on_time_performance add index idx_time (flightdate);

explain

select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance

from on_time_performance where flightdate = 『2015-01-03』;

寫出快速獲取到第50-55行所用的sql語句。

select airlineid,flightnum,origin,dest,deptime,tailnum,airtime,distance

from on_time_performance limit 49,6;

4.**一年內飛行航班的季節性，哪個季度航班總數多

selectquarter,count(quarter) as counts from on_time_performance

group byquarterorder by counts desc;

找出航班最多的乙個月是幾月份

select * from (selectmonth,count(month) as counts

from on_time_performance group bymonth) month_count

order by counts desc limit 1;

5.現有乙個json檔案的airplane資料，寫一段python程式把資料轉換成csv，匯入資料庫中。然後統計飛機最多的兩個生產商。

select * from (select manufacturer,count( manufacturer ) as counts

from airplanes group by manufacturer) manufacturer_count

order by counts desc limit 2;

利用SQL 2005 CTE處理樹型資料

在現實生活中,樹型資料屢見不鮮組織機構,產品結構,人事關係等等.記得在以往的乙個專案中,涉及到機構,人員,在對其進行處理,特別是進行統計,聚集操作的時候,我一直沒找到乙個好的方法.臨時表,檢視,程式控制.能用的辦法都用上了,但在處理效率上一直不盡如人意.歸根結底,我的感覺就是在資料庫中,對資料的操...

利用SQL 2005 CTE處理樹型資料

spark RDD處理資料集

package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...

利用SQL技能處理資料集例項（入門）

利用SQL 2005 CTE處理樹型資料

利用SQL 2005 CTE處理樹型資料

spark RDD處理資料集

相關推薦