python spark常用方法總結

2021-10-10 20:46:10 字數 959 閱讀 1144

###統計行數

df.count()

##獲取df的列名:

df.columns

###顯示當前值 不帶引數預設是顯示前面20行

df.show()

df.show(2, false) ##show括號裡面傳入引數可以顯示檢視幾行 show(2,false) false 是否全部顯示 false 不隱藏

##檢視列的方式 會顯示列的資料型別以及列名

df.printschema()

###檢視特定的列

df.select(["key"]).show(5)

###返回每一列的統計指標

df.describe().show()

###推薦新的一列

df.withcolumn()

##例子

df.withcolumn('number_add', (df['number']+20)).show(10, false)

###篩選資料

df.filter()

###基於一列篩選

df.filter(df['name']=='tom').show()

###基於多列的篩選

df.filter(df['***']=='男').filter(df['age'] > '30').show()

####列中的非重複值

df.select('age').distinct().show()

####資料分組

df.groupby('age').count().show()

####資料排序

df.groupby('age').count().orderby('count',ascending=true).show()

###資料聚合

df.groupby('***').agg('job_name':'sum').show()

python spark基礎操作相關參考部落格

spark python api 官方文件中文版 之 pyspark.sql 二 spark機器學習速成寶典 基礎篇02rdd常見的操作 python版 彈性分布式資料集 rdd 零基礎入門大資料之spark中的幾種key value操作 7.spark學習 python版本 spark sql中的...

mysql常用方法 mysql 常用方法

處理字元 1 concat aaa bbb ccc 拼接字串,oracle也有這個方法不過只能拼接2個,而且一般用 mysql中 表示或。相當於or 2 ifnull name,aaa 當name null時,返回 aaa 3.upper aaa lower aaa 變為大寫,小寫 4.substr...

easyui常用控制項常用方法

easyui常用控制項使用方法 1.文字框 取值 id textbox getvalue 或 id val 2.鏈結按鈕 register 3.日曆控制項 顯示年月日 取值 kssj datebox getvalue 顯示年月日時分秒 取值 regtime datetimebox getvalue ...