2023-04-24 13:04:29
29
0
0
Spark Streaming
流计算除了使用 Storm 框架,使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming,可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。
下面以一个简单的 Spark Streaming 示例(基于流的单词统计)来演示一下 Spark Streaming:本地服务器通过 TCP
本教程使用的 IDE 为 IntelliJ IDEA,创建一个 maven 工程,命名为 zookeeper-demo,并且引入如下依赖,可以自行在 maven 中央仓库选择合适的版本,介绍原生 API 和 Curator 两种方式。
IntelliJ IDEA 相关介绍:
Intellij IDEA 使用教程
Maven IntelliJ
<dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <versi
1 openGauss使用JDBC连接数据库
1.1 新用户的创建
切换到omm用户,以操作系统用户omm登录数据库主节点。
su - omm
启动服务:
gs_om -t start
使用gsql工具登陆数据库:
gsql -d postgres -p 26000 -r
连接数据库后,进入SQL命令界面。创建用户dbuser,密码为Gauss#3demo。
CREATE USER dbuser IDENTIFIED BY 'Gauss#3demo';
退出数据库:
postgres=#\q
1.2 使用JD
Flume
2022-09-27 17:21:43
57
0
0
Flume案例-实时监控目录下的多个追加文件
Exec source 适用于监控一个实时追加的文件, 但不能保证数据不丢失; Spooldir Source 能够保证数据不丢失,且能够实现断点续传, 但延迟较高,不能实时监控;而 Taildir Source既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控。
1)案例需求:
使用 Flume 监听整个目录的实时追加文件,并上传至 HDFS
2) 需求分析:
3)实现步骤:
1.创建配置文件 flume-taildir-hdfs.conf
创建一个文件
nbu@ecs
2025-03-31 22:54:57
27
0
0
实例简述
本节将在04-HBase-命令行操作实例-01基础上测试更多查询命令。
实验环境
本实验在ecs服务器上进行,采用HBase伪分布式模式,已开启Hadoop和HBase,开启流程见 (01-HBase安装),表内容见04-HBase-命令行操作实例-01。
查询特定列族数据
使用scan命令查询特定列族的数据:
scan 'employee', {COLUMNS => 'personal_data'}
命令运行结果如下:
可以看到行键为1中只有age而没有name,原因是因为在04-HBase-命令行操作实例-01中我们将行键为
编译、打包 Hadoop MapReduce 程序
将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:
export HADOOP_HOME=/usr/local/hadoopexport CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
修改.bashrc文件后,执行 source ~/.bashrc 使变量生效。
nbu@ecs:~$ mkdir -p bigdata/mapreduce/nbu@ecs:~$ cd bigd
2022-11-07 15:02:34
19
0
0
Hive创建表
创造表的约定在 Hive 中非常类似于使用 SQL 创建表。
CREATE TABLE 语句
Create Table 是用于在 Hive 中创建表的语句。语法和示例如下:
语法
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][ROW FORMAT row_format][STORED AS file
2024-04-09 15:51:40
14
0
0
采样和数据保留
InfluxDB每秒可以处理数十万的数据点。如果要长时间地存储大量的数据,对于存储会是很大的压力。一个很自然的方式就是对数据进行采样,对于高精度的裸数据存储较短的时间,而对于低精度的的数据可以保存得久一些甚至永久保存。
InfluxDB提供了两个特性——连续查询(Continuous Queries简称CQ)和保留策略(Retention Policies简称RP),分别用来处理数据采样和管理老数据的。这一章将会展示CQs和RPs的例子,看下在InfluxDB中怎么使用这两个特性。
定义
Continuous Query (CQ)是在数据库内部自动周期性跑着
Java 客户端创建一个用于发布和使用消息的应用程序。 Kafka 生产者客户端包括以下 API。
KafkaProducer API
让我们了解本节中最重要的一组 Kafka 生产者 API。 KafkaProducer API 的中心部分是 KafkaProducer 类。 KafkaProducer 类提供了一个选项,用于将其构造函数中的 Kafka 代理连接到以下方法。
KafkaProducer 类提供 send 方法以异步方式将消息发送到主题。 send() 的签名如下
producer.send(new ProducerRecord<byte
MongoDB 创建数据库
MongoDB 创建数据库 语法 MongoDB 创建数据库的语法格式如下: use DATABASE_NAME 如果数据库不存在,则创建数据库,否则切换到指定数据库。
语法
MongoDB 创建数据库的语法格式如下:
use DATABASE_NAME
如果数据库不存在,则创建数据库,否则切换到指定数据库。
实例
以下实例我们创建了数据库 runoob:
> use runoobswitched to db runoob> dbrunoob>
如果你想查看所有数据库,可以使用 s