統計踩坑日記(二)

2021-10-23 20:03:12 字數 1136 閱讀 4113

todf:

// 構造測試資料,有兩個字段、名字和年齡

val userdata = array(("a", 16), ("b", 21), ("b", 14), ("b", 18))

//建立測試df

val userdf = spark.createdataframe(userdata)

+-----+---+

| ._1| ._2|

+-----+---+

| a | 16|

| b | 21|

| c | 14|

| d | 18|

+-----+---+

.todf("name", "age")

+-----+---+

| name|age|

+-----+---+

| a | 16|

| b | 21|

| c | 14|

| d | 18|

+-----+---+

是否使用todf("","",...)的區別。對於schema完整且有意義的df來說,df.todf不帶引數,有和沒有todf沒有區別。

快捷udf:

udf函式:

一種快捷的實現自己想要效果的方法,新手可以試試一些簡單的函式,大神請隨意

val orgudf = udf((str:string) -> str.substring(0,11))

count變體

df.count

一般來說,count是統計dataframe內部資料條數的函式,例如:

userdf.count

返回4 數值型別是long

那麼按理說這時候df.count就是乙個數字了,那麼像filter等函式不就是不能做了嘛,你這樣說也沒錯,我之前也是這麼認為的,在spark-shell中也沒能通過。

但今天看到了一段**顛覆了我的認知

在idea開發環境中,df.groupby().count.filter是可行的,

諮詢大神後,他說可能是這種模型的變體

df.groupby().agg(sum()).filter,沒有驗證過,所以且當真吧

統計踩坑日記(三)

統計踩坑日記 三 細心決定一切 程式設計師的下班時間是由他對當前手裡專案有沒有想法決定的,上週對三張表進行統計工作,就被細節問題折磨的欲仙欲死 1.寫 的時候可以隨心所欲點,但涉及到指標的生成 統計時就需要嚴陣以待。每個指標都建議大寫,因為不是每個資料庫都不區分大小寫,比如kudu,他就不支援小寫字...

統計踩坑日記(五)

技術的熟練度來自於日復一日的堅持 技術的提公升來自於高熟練度以及偶然的靈光 加油!遇到事情不能坐以待斃 filter的n種寫法 filter expr colname 15 filter colname 1 filter a 1 and b 2 and c 3 filter expr colname...

React Native 踩坑日記

問題 於示圖 findpage title 發現 解決辦法 react native 中無論是 tabbarios.item 還是 tabbar.item 必須有且只有乙個元件,說白了就是需要有子元件的存在,並且只存在乙個子元件。findpage title 發現 onpress selected ...