分类-Spark

2023-04-24 13:04:29 201 0 0

Spark 快速入门指南 – Spark 安装与基础使用准备工作需要安装JDK 本教程使用的JDK1.8，可参考JDK安装安装 Spark 官网下载地址：http://spark.apache.org/downloads.html spark-x.x.x-bin-hadoopXX.tgz 版本的spark可以不安装Hadoop 本实验由于已安装过Hadoop,则选择spark-2.4.8-bin-without-hadoop.tgz版安装对于spark-2.4.8-bin-without-hadoop.tgz版spark，需要预先装Had

查看

02-Spark-Shell命令

2023-04-24 13:04:29 70 0 0

通过 Spark Shell 进行交互分析 Spark shell 提供了简单的方式来学习 API，也提供了交互的方式来分析数据。Spark Shell 支持 Scala 和 Python，本教程选择使用 Scala 来进行介绍。执行如下命令启动 Spark Shell： nbu@/usr/local/spark$./bin/spark-shell 启动成功后如图所示，会有 “scala >” 的命令提示符。退出spark如下： scala> :quit 基础操作 Spark 的主要抽象是分布式的元素集合（distribut

查看

03-Spark-SparkSQL

2023-04-24 13:04:29 39 0 0

Spark SQL 和 DataFrames Spark SQL 是 Spark 内嵌的模块，用于结构化数据。在 Spark 程序中可以使用 SQL 查询语句或 DataFrame API。DataFrames 和 SQL 提供了通用的方式来连接多种数据源，支持 Hive、Avro、Parquet、ORC、JSON、和 JDBC，并且可以在多种数据源之间执行 join 操作。使用 SQLContext 可以从现有的 RDD 或数据源创建 DataFrames。作为示例，我们通过 Spark 提供的 JSON 格式的数据源文件 ./examples/src/main/resource

查看

04-Spark-Streaming

2023-04-24 13:04:29 29 0 0

Spark Streaming 流计算除了使用 Storm 框架，使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming，可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算，这意味着在 Spark 上进行流处理与批处理的方式一样。因此，你可以复用批处理的代码，使用 Spark Streaming 构建强大的交互式应用程序，而不仅仅是用于分析数据。下面以一个简单的 Spark Streaming 示例（基于流的单词统计）来演示一下 Spark Streaming：本地服务器通过 TCP

查看

05-Spark-Scala编程

2023-04-24 13:04:29 74 0 0

独立应用程序（Self-Contained Applications）接着我们通过一个简单的应用程序 SimpleApp 来演示如何通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包，相应的，Java 程序使用 Maven 编译打包，而 Python 程序通过 spark-submit 直接提交。应用程序代码在终端中执行如下命令创建一个文件夹 sparkapp 作为应用程序根目录： $ cd ~ # 进入用户主文件夹 $ mkdir ./sparkapp # 创建应

查看

06-Spark常见问题-解决方法

2023-04-24 13:04:29 26 0 0

解决 sbt 无法下载依赖包的问题按照官网教程安装 sbt 0.13.9 后，运行时会出现如下错误： Getting org.scala-sbt sbt 0.13.9 ... :: problems summary :: :::: WARNINGS module not found: org.scala-sbt#sbt;0.13.9 ==== local: tried /home/hadoop/.ivy2/local/org.scala-sbt/sbt/0.13.9/ivys/ivy.xml -- artifact org.sc

查看

大数据学习

分类 - Spark

导航

最近发表

友情链接