标签-Flume

Flume 2022-09-27 17:15:04 54 0 0

Flume 概述 1 Flume 定义 Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume 基于流式架构，灵活简单。 Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。 2 Flume 基础架构 Flume 组成架构如图所示下面我们来详细介绍一下 Flume 架构中的组件： 2.1 Agent Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。 Agent 主要有 3 个部分组成， Source、 Channel、

查看

02-Flume安装部署

Flume 2022-09-27 17:17:09 32 0 0

Flume 安装部署安装地址 1） Flume 官网地址 http://flume.apache.org/ 2）文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3）下载地址 http://archive.apache.org/dist/flume/ 安装部署 1）将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/software 目录下 2）解压 apache-flume-1.7.0-bin.tar.gz 到/u

查看

03-Flume案例-监控端口数据

Flume 2022-09-27 17:20:50 61 0 0

Flume案例-监控端口数据官方案例 1）案例需求：使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。 2）需求分析： 3）实现步骤： 1.安装 netcat 工具 centos安装方法 nbu@ecs:~$ sudo yum install -y nc ubuntu安装方法 nbu@ecs:~$ sudo apt-get -y install netcat-traditional 2.判断 44444 端口是否被占用 nbu@ecs:~$ sudo netstat -tunlp

查看

04-Flume案列-实时监控单个追加文件

Flume 2022-09-27 17:18:27 77 0 0

Flume案例-实时监控单个追加文件 1）案例需求：实时监控 Hive 日志，并上传到 HDFS 中 2）需求分析： 3）实现步骤： 1.Flume 要想将数据输出到 HDFS，须持有 Hadoop 相关 jar 包将 commons-configuration-1.6.jar hadoop-auth-2.7.2.jar hadoop-common-2.7.2.jar hadoop-hdfs-2.7.2.jar commons-io-2.4.jar htrace-core-3.1.0-incubating.jar 拷贝到/u

查看

05-Flume案例-实时监控目录下的多个追加文件

Flume 2022-09-27 17:21:43 75 0 0

Flume案例-实时监控目录下的多个追加文件 Exec source 适用于监控一个实时追加的文件，但不能保证数据不丢失； Spooldir Source 能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控；而 Taildir Source既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控。 1）案例需求：使用 Flume 监听整个目录的实时追加文件，并上传至 HDFS 2）需求分析： 3）实现步骤： 1.创建配置文件 flume-taildir-hdfs.conf 创建一个文件 nbu@ecs

查看

06-Flume案例-实时监控整个目录的文件

Flume 2022-09-27 17:21:28 29 0 0

Flume案例-实时监控整个目录的文件 1）案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS 2）需求分析： 3）实现步骤： 1.创建配置文件 flume-dir-hdfs.conf 创建一个文件 nbu@ecs:~$ cd /usr/local/flume/jobnbu@ecs:/usr/local/flume/job$ vim flume-dir-hdfs.conf 添加如下内容: a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/c

查看

07-Flume进阶

Flume 2022-09-27 17:16:34 20 0 0

Flume 进阶 Flume 事务 Flume Agent 内部原理重要组件： 1）ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，分别是Replicating（复制）和 Multiplexing（多路复用）。 ReplicatingSelector 会将同一个 Event 发往所有的 Channel，Multiplexing 会根据相应的原则，将不同的 Event 发往不同的 Channel。 2）SinkProcessor Sink

查看

08-Flume案例-复制和多路复用

Flume 2022-09-27 17:20:31 63 0 0

Flume案例-复制和多路复用 1）案例需求：使用 Flume-1 监控文件变动， Flume-1 将变动内容传递给 Flume-2， Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到 Local FileSystem。 2）需求分析： 3）实现步骤： 1.准备工作在/usr/local/flume/job 目录下创建 group1 文件夹: nbu@ecs:/usr/local/flume/job$ mkdir group1nbu@ecs:/usr/lo

查看

09-Flume案例-负载均衡和故障转移

Flume 2022-09-27 17:19:39 24 0 0

Flume案例-负载均衡和故障转移 1）案例需求：使用 Flume1 监控一个端口，其 sink 组中的 sink 分别对接 Flume2 和 Flume3，采用FailoverSinkProcessor，实现故障转移的功能。 2）需求分析： 3）实现步骤： 1.准备工作在/opt/module/flume/job 目录下创建 group2 文件夹 nbu@ecs:~$ cd /usr/local/flume/jobnbu@ecs:/usr/local/flume/job$ mkdir group2 2.创建 flu

查看

10-Flume案例-聚合

Flume 2022-09-27 17:21:09 29 0 0

Flume案例-聚合 1）案例需求： Flume-1 监控文件/usr/local/flume/datas/group.log Flume-2 监控某一个端口的数据流，Flume-1 与 Flume-2 将数据发送给 Flume-3， Flume-3 将最终数据打印到控制台。 2）需求分析： 3）实现步骤： 1.准备工作创建/usr/local/flume/datas/group.log: nbu@ecs:/usr/local/flume$ cd datasnbu@ecs:/usr/local/flume/datas$ tou

查看

大数据学习

标签 - Flume