###統計行數
df.count()
##獲取df的列名:
df.columns
###顯示當前值 不帶引數預設是顯示前面20行
df.show()
df.show(2, false) ##show括號裡面傳入引數可以顯示檢視幾行 show(2,false) false 是否全部顯示 false 不隱藏
##檢視列的方式 會顯示列的資料型別以及列名
df.printschema()
###檢視特定的列
df.select(["key"]).show(5)
###返回每一列的統計指標
df.describe().show()
###推薦新的一列
df.withcolumn()
##例子
df.withcolumn('number_add', (df['number']+20)).show(10, false)
###篩選資料
df.filter()
###基於一列篩選
df.filter(df['name']=='tom').show()
###基於多列的篩選
df.filter(df['***']=='男').filter(df['age'] > '30').show()
####列中的非重複值
df.select('age').distinct().show()
####資料分組
df.groupby('age').count().show()
####資料排序
df.groupby('age').count().orderby('count',ascending=true).show()
###資料聚合
df.groupby('***').agg('job_name':'sum').show()
python spark基礎操作相關參考部落格
spark python api 官方文件中文版 之 pyspark.sql 二 spark機器學習速成寶典 基礎篇02rdd常見的操作 python版 彈性分布式資料集 rdd 零基礎入門大資料之spark中的幾種key value操作 7.spark學習 python版本 spark sql中的...
mysql常用方法 mysql 常用方法
處理字元 1 concat aaa bbb ccc 拼接字串,oracle也有這個方法不過只能拼接2個,而且一般用 mysql中 表示或。相當於or 2 ifnull name,aaa 當name null時,返回 aaa 3.upper aaa lower aaa 變為大寫,小寫 4.substr...
easyui常用控制項常用方法
easyui常用控制項使用方法 1.文字框 取值 id textbox getvalue 或 id val 2.鏈結按鈕 register 3.日曆控制項 顯示年月日 取值 kssj datebox getvalue 顯示年月日時分秒 取值 regtime datetimebox getvalue ...