2023-04-24 13:04:29    29    0    0
Spark Streaming 流计算除了使用 Storm 框架,使用 Spark Streaming 也是一个很好的选择。基于 Spark Streaming,可以方便地构建可拓展、高容错的流计算应用程序。Spark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。 下面以一个简单的 Spark Streaming 示例(基于流的单词统计)来演示一下 Spark Streaming:本地服务器通过 TCP
Zookeeper    2022-10-17 19:47:21    43    0    0
本教程使用的 IDE 为 IntelliJ IDEA,创建一个 maven 工程,命名为 zookeeper-demo,并且引入如下依赖,可以自行在 maven 中央仓库选择合适的版本,介绍原生 API 和 Curator 两种方式。 IntelliJ IDEA 相关介绍: Intellij IDEA 使用教程 Maven IntelliJ <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <versi
openGauss数据库    2022-10-15 14:23:10    130    0    0
1 openGauss使用JDBC连接数据库 1.1 新用户的创建 切换到omm用户,以操作系统用户omm登录数据库主节点。 su - omm 启动服务: gs_om -t start 使用gsql工具登陆数据库: gsql -d postgres -p 26000 -r 连接数据库后,进入SQL命令界面。创建用户dbuser,密码为Gauss#3demo。 CREATE USER dbuser IDENTIFIED BY 'Gauss#3demo'; 退出数据库: postgres=#\q 1.2 使用JD
Flume    2022-09-27 17:21:43    57    0    0
Flume案例-实时监控目录下的多个追加文件 Exec source 适用于监控一个实时追加的文件, 但不能保证数据不丢失; Spooldir Source 能够保证数据不丢失,且能够实现断点续传, 但延迟较高,不能实时监控;而 Taildir Source既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控。 1)案例需求: 使用 Flume 监听整个目录的实时追加文件,并上传至 HDFS 2) 需求分析: 3)实现步骤: 1.创建配置文件 flume-taildir-hdfs.conf 创建一个文件 nbu@ecs
2025-03-31 22:54:57    27    0    0
实例简述 本节将在04-HBase-命令行操作实例-01基础上测试更多查询命令。 实验环境 本实验在ecs服务器上进行,采用HBase伪分布式模式,已开启Hadoop和HBase,开启流程见 (01-HBase安装),表内容见04-HBase-命令行操作实例-01。 查询特定列族数据 使用scan命令查询特定列族的数据: scan 'employee', {COLUMNS => 'personal_data'} 命令运行结果如下: 可以看到行键为1中只有age而没有name,原因是因为在04-HBase-命令行操作实例-01中我们将行键为
Hadoop HDFS    2022-10-13 13:21:43    136    0    0
编译、打包 Hadoop MapReduce 程序 将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行: export HADOOP_HOME=/usr/local/hadoopexport CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH 修改.bashrc文件后,执行 source ~/.bashrc 使变量生效。 nbu@ecs:~$ mkdir -p bigdata/mapreduce/nbu@ecs:~$ cd bigd
2022-11-07 15:02:34    19    0    0
Hive创建表 创造表的约定在 Hive 中非常类似于使用 SQL 创建表。 CREATE TABLE 语句 Create Table 是用于在 Hive 中创建表的语句。语法和示例如下: 语法 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.] table_name[(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment][ROW FORMAT row_format][STORED AS file
2024-04-09 15:51:40    14    0    0
采样和数据保留 InfluxDB每秒可以处理数十万的数据点。如果要长时间地存储大量的数据,对于存储会是很大的压力。一个很自然的方式就是对数据进行采样,对于高精度的裸数据存储较短的时间,而对于低精度的的数据可以保存得久一些甚至永久保存。 InfluxDB提供了两个特性——连续查询(Continuous Queries简称CQ)和保留策略(Retention Policies简称RP),分别用来处理数据采样和管理老数据的。这一章将会展示CQs和RPs的例子,看下在InfluxDB中怎么使用这两个特性。 定义 Continuous Query (CQ)是在数据库内部自动周期性跑着
Kafka Java    2022-12-05 23:06:00    39    0    0
Java 客户端创建一个用于发布和使用消息的应用程序。 Kafka 生产者客户端包括以下 API。 KafkaProducer API 让我们了解本节中最重要的一组 Kafka 生产者 API。 KafkaProducer API 的中心部分是 KafkaProducer 类。 KafkaProducer 类提供了一个选项,用于将其构造函数中的 Kafka 代理连接到以下方法。 KafkaProducer 类提供 send 方法以异步方式将消息发送到主题。 send() 的签名如下 producer.send(new ProducerRecord<byte
MongoDB    2024-04-17 09:59:39    29    0    0
MongoDB 创建数据库 MongoDB 创建数据库 语法 MongoDB 创建数据库的语法格式如下: use DATABASE_NAME 如果数据库不存在,则创建数据库,否则切换到指定数据库。 语法 MongoDB 创建数据库的语法格式如下: use DATABASE_NAME 如果数据库不存在,则创建数据库,否则切换到指定数据库。 实例 以下实例我们创建了数据库 runoob: > use runoobswitched to db runoob> dbrunoob> 如果你想查看所有数据库,可以使用 s