2023-04-24 13:04:29
142
0
0
Spark 快速入门指南 – Spark 安装与基础使用
准备工作
需要安装JDK 本教程使用的JDK1.8,可参考JDK安装
安装 Spark
官网下载地址:http://spark.apache.org/downloads.html
spark-x.x.x-bin-hadoopXX.tgz 版本的spark可以不安装Hadoop
本实验由于已安装过Hadoop,则选择spark-2.4.8-bin-without-hadoop.tgz版安装
对于spark-2.4.8-bin-without-hadoop.tgz版spark,需要预先装Had
2023-04-24 13:04:29
59
0
0
通过 Spark Shell 进行交互分析
Spark shell 提供了简单的方式来学习 API,也提供了交互的方式来分析数据。Spark Shell 支持 Scala 和 Python,本教程选择使用 Scala 来进行介绍。
执行如下命令启动 Spark Shell:
nbu@/usr/local/spark$./bin/spark-shell
启动成功后如图所示,会有 “scala >” 的命令提示符。
退出spark如下:
scala> :quit
基础操作
Spark 的主要抽象是分布式的元素集合(distribut
2023-04-24 13:04:29
36
0
0
Spark SQL 和 DataFrames
Spark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame
API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源,支持 Hive、Avro、Parquet、ORC、JSON、和 JDBC,并且可以在多种数据源之间执行 join 操作。
使用 SQLContext 可以从现有的 RDD 或数据源创建 DataFrames。作为示例,我们通过 Spark 提供的 JSON 格式的数据源文件
./examples/src/main/resource
2023-04-24 13:04:29
28
0
0
Spark Streaming
流计算除了使用 Storm 框架,使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming,可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。
下面以一个简单的 Spark Streaming 示例(基于流的单词统计)来演示一下 Spark Streaming:本地服务器通过 TCP
2023-04-24 13:04:29
63
0
0
独立应用程序(Self-Contained Applications)
接着我们通过一个简单的应用程序 SimpleApp 来演示如何通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包,相应的,Java 程序使用 Maven 编译打包,而 Python 程序通过 spark-submit 直接提交。
应用程序代码
在终端中执行如下命令创建一个文件夹 sparkapp 作为应用程序根目录:
$ cd ~ # 进入用户主文件夹 $ mkdir ./sparkapp # 创建应
2023-04-24 13:04:29
25
0
0
解决 sbt 无法下载依赖包的问题
按照官网教程安装 sbt 0.13.9 后,运行时会出现如下错误:
Getting org.scala-sbt sbt 0.13.9 ...
:: problems summary ::
:::: WARNINGS
module not found: org.scala-sbt#sbt;0.13.9
==== local: tried
/home/hadoop/.ivy2/local/org.scala-sbt/sbt/0.13.9/ivys/ivy.xml
-- artifact org.sc