** 注意: **使用的是hadoop的hdfs作為持久層,需要先配置hadoop
# pyspark
>>> lines = sc.textfile("/user/mint/readme.md") # 建立乙個名為lines的rdd.首先要確保readme.md在hdfs檔案系統相應的路徑中.這裡的文件是spark在安裝目錄下,選擇其他文件.
>>> lines.count() # 行數
>>> lines.first() # 顯示第乙個元素,這裡就是第一行
如果執行出錯,可以排查如下情況:
>>> lines = sc.textfile("readme.md")
>>> lines.count()
99>>> lines.first()
u'# apache spark'
>>> lines = sc.textfile("/user/mint/readme.md")
>>> lines.first()
u'# apache spark'
# spark-shell
scala> val lines = sc.textfile("readme.md")
scala> lines.count()
res0: long = 99
scala> lines.first()
res1: string = # apache spark
Spark簡單使用
spark的乙個主要特點就是可以在記憶體中使用,因此他的計算速度比較快。在初學之前按照 quick start.html 中的示例來做一遍。先來初步理解一下操作流程。1.首先是搭建spark,網上有很多教程,cmd中最後執行pyspark 我們首先來分析spark資料夾中的 readme.md 檔案...
spark基本使用
啟動pysparkcd usr local spark bin pyspark統計文字的行數lines sc.textfile file usr local spark readme.md lines.count rdd的persisit方法會將該rdd物件持久化到記憶體中,對於可能會被重複呼叫的r...
spark使用pandasdataframe優化
項 pandas spark 工作方式 單機,無法處理大量資料 分布式,能處理大量資料 儲存方式 單機快取 可以呼叫 persist cache 分布式快取 是否可變 是 否 index索引 自動建立 無索引 行結構pandas.series pyspark.sql.row 列結構pandas.se...