大数据学习

2023-04-24 13:04:29 30 0 0

Spark Streaming 流计算除了使用 Storm 框架，使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming，可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算，这意味着在 Spark 上进行流处理与批处理的方式一样。因此，你可以复用批处理的代码，使用 Spark Streaming 构建强大的交互式应用程序，而不仅仅是用于分析数据。下面以一个简单的 Spark Streaming 示例（基于流的单词统计）来演示一下 Spark Streaming：本地服务器通过 TCP

查看

04-Zookeeper-Java客户端搭建

Zookeeper 2022-10-17 19:47:21 49 0 0

本教程使用的 IDE 为 IntelliJ IDEA，创建一个 maven 工程，命名为 zookeeper-demo，并且引入如下依赖，可以自行在 maven 中央仓库选择合适的版本，介绍原生 API 和 Curator 两种方式。 IntelliJ IDEA 相关介绍： Intellij IDEA 使用教程 Maven IntelliJ <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <versi

查看

05 openGauss使用JDBC连接数据库指导手册

openGauss数据库 2022-10-15 14:23:10 172 0 0

1 openGauss使用JDBC连接数据库 1.1 新用户的创建切换到omm用户，以操作系统用户omm登录数据库主节点。 su - omm 启动服务： gs_om -t start 使用gsql工具登陆数据库： gsql -d postgres -p 26000 -r 连接数据库后，进入SQL命令界面。创建用户dbuser，密码为Gauss#3demo。 CREATE USER dbuser IDENTIFIED BY 'Gauss#3demo'; 退出数据库： postgres=#\q 1.2 使用JD

查看

05-Flume案例-实时监控目录下的多个追加文件

Flume 2022-09-27 17:21:43 86 0 0

Flume案例-实时监控目录下的多个追加文件 Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失； Spooldir Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控；而 Taildir Source既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控。 1）案例需求：使用 Flume 监听整个目录的实时追加文件，并上传至 HDFS 2）需求分析： 3）实现步骤： 1.创建配置文件 flume-taildir-hdfs.conf 创建一个文件 nbu@ecs

查看

05-HBase-命令行操作实例-02

2025-03-31 22:54:57 31 0 0

实例简述本节将在04-HBase-命令行操作实例-01基础上测试更多查询命令。实验环境本实验在ecs服务器上进行，采用HBase伪分布式模式，已开启Hadoop和HBase，开启流程见（01-HBase安装），表内容见04-HBase-命令行操作实例-01。查询特定列族数据使用scan命令查询特定列族的数据： scan 'employee', {COLUMNS => 'personal_data'} 命令运行结果如下：可以看到行键为1中只有age而没有name，原因是因为在04-HBase-命令行操作实例-01中我们将行键为

查看

05-Hadoop-MapReduce编程-javac

Hadoop HDFS 2022-10-13 13:21:43 145 0 0

编译、打包 Hadoop MapReduce 程序将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中，在 ~/.bashrc 中增加如下几行： export HADOOP_HOME=/usr/local/hadoopexport CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH 修改.bashrc文件后，执行 source ~/.bashrc 使变量生效。 nbu@ecs:~$ mkdir -p bigdata/mapreduce/nbu@ecs:~$ cd bigd

查看

05-Hive表创建-修改-删除

2022-11-07 15:02:34 32 0 0

Hive创建表创造表的约定在 Hive 中非常类似于使用 SQL 创建表。 CREATE TABLE 语句 Create Table 是用于在 Hive 中创建表的语句。语法和示例如下：语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][ROW FORMAT row_format][STORED AS file

查看

05-InfluxDB采样和数据保留

2024-04-09 15:51:40 20 0 0

采样和数据保留 InfluxDB每秒可以处理数十万的数据点。如果要长时间地存储大量的数据，对于存储会是很大的压力。一个很自然的方式就是对数据进行采样，对于高精度的裸数据存储较短的时间，而对于低精度的的数据可以保存得久一些甚至永久保存。 InfluxDB提供了两个特性——连续查询(Continuous Queries简称CQ)和保留策略(Retention Policies简称RP)，分别用来处理数据采样和管理老数据的。这一章将会展示CQs和RPs的例子，看下在InfluxDB中怎么使用这两个特性。定义 Continuous Query (CQ)是在数据库内部自动周期性跑着

查看

05-Kafka生产者示例

Kafka Java 2022-12-05 23:06:00 44 0 0

Java 客户端创建一个用于发布和使用消息的应用程序。 Kafka 生产者客户端包括以下 API。 KafkaProducer API 让我们了解本节中最重要的一组 Kafka 生产者 API。 KafkaProducer API 的中心部分是 KafkaProducer 类。 KafkaProducer 类提供了一个选项，用于将其构造函数中的 Kafka 代理连接到以下方法。 KafkaProducer 类提供 send 方法以异步方式将消息发送到主题。 send() 的签名如下 producer.send(new ProducerRecord<byte

查看

05-MongoDB基本操作

MongoDB 2024-04-17 09:59:39 34 0 0

MongoDB 创建数据库 MongoDB 创建数据库语法 MongoDB 创建数据库的语法格式如下： use DATABASE_NAME 如果数据库不存在，则创建数据库，否则切换到指定数据库。语法 MongoDB 创建数据库的语法格式如下： use DATABASE_NAME 如果数据库不存在，则创建数据库，否则切换到指定数据库。实例以下实例我们创建了数据库 runoob: > use runoobswitched to db runoob> dbrunoob> 如果你想查看所有数据库，可以使用 s

查看

大数据学习

导航

最近发表

友情链接