mark一下,感謝作者分享!
方法一:用pandas輔助
from pyspark import sparkcontext
from pyspark.sql import sqlcontext
import pandas as pd
sc = sparkcontext()
sqlcontext=sqlcontext(sc)
df=pd.read_csv(r』game-clicks.csv』)
sdf=sqlc.createdataframe(df)
檔案不大的情況下可以
方法二:純spark
from pyspark import sparkcontext
from pyspark.sql import sqlcontext
sc = sparkcontext()
sqlcontext = sqlcontext(sc)
sqlcontext.read.format(『com.databricks.spark.csv』).options(header=』true』, inferschema=』true』).load(『game-clicks.csv』)
需要com.databricks.spark.csv環境
方法三:pyspark.sql import sparksession(spark 2.x)
檢查csv檔案是否標準
filepath = 「main_amount.csv」
main_amount = sc.textfile(filepath)
print(main_amount.count())
header = main_amount.first()
main_amount_data = main_amount.filter(lambda lines: lines != header)
header_columns = header.split(『,』)
main_amount_data = main_amount_data.map(lambda line: line.split(『,』))
print(len(header_columns)) 輸出12列
//print(main_amount_data.take(2))
fields_len = main_amount_data.map(lambda fields: len(fields)).countbyvalue()
print(fields_len)
輸出:發現列數不一致,並且部分資料行超過header_columns。
1、用pandas讀將不會自動分割『,』
2、com.databricks.spark.csv和sparksession下read.csv會報錯
pyspark讀取csv文字儲存至MySQL案例
我們在使用spark處理完資料時,經常要將處理好的結果資料儲存的如mysql等關係型資料庫中,下面我們通過乙個示例說明如何將spark處理好的資料儲存到mysql中 檔案student.csv id,name,age 1,張三,23 2,李四,24from pyspark.sql.session i...
讀取 CSV 檔案
csv檔案 即 csv comma separate values 用逗號分隔值,可以用excel開啟檢視 由於是純文字,任何編輯器都快可以開啟檢視.與excel不同的是,在csv檔案中 1.值沒有型別,所有值都是字串 2.不能指定字型顏色等樣式 3.不能指定單元格的寬高,不能合併單元格 4.沒有多...
php讀取csv檔案
開始討論php操作csv檔案的問題之前,我們先首先了解一下什麼是csv檔案。csv是最通用的一種檔案格式,它可以非常容易地被匯入各種pc 及資料庫中。此檔案,一行即為資料表的一行。生成資料表字段用半形逗號隔開。了解到這裡我們看清楚了csv檔案的最大特點,以行排列,每行中的每個數值用逗號隔開。看到這裡...