Flume+Kafka+Spark Streaming打造企业大数据流处理平台
流行框架打造通用平台,直接应用于企业项目。本课程为SparkStreaming实时流处理项目实战。当前最火爆的SparkStreaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平!附:源码。
课程章节
第1章课程介绍
1-1-导学-
1-2-授课习惯和学习建议
1-3-OOTB环境使用演示
1-4-Linux环境及软件版本介绍
1-5-Spark版本升级
第2章初识实时流处理
2-1-课程目录
2-2-业务现状分析
2-3-实时流处理产生背景
2-4-实时流处理概述
2-5-离线计算和实时计算对比
2-6-实时流处理框架对比
2-7-实时流处理架构及技术选型
2-8-实时流处理在企业中的应用
第3章分布式日志收集框架Flume
3-1-课程目录
3-2-业务现状分析
3-3-Flume概述
3-4-Flume架构及核心组件
3-5-Flume&JDK环境部署
3-6-Flume实战案例一
3-7-Flume实战案例二
3-8-Flume实战案例三(重点掌握)
第4章分布式发布订阅消息系统Kafka
4-1-课程目录
4-2-Kafka概述
4-3-Kafka架构及核心概念
4-4-Kafka单节点单Broker部署之Zookeeper安装
4-5-Kafka单节点单broker的部署及使用
4-6-Kafka单节点多broker部署及使用
4-7-Kafka容错性测试
4-8-使用IDEA+Maven构建开发环境
4-9-KafkaProducerJavaAPI编程
4-10-KafkaConsumerJavaAPI编程
4-11-Kafka实战之整合Flume和Kafka完成实时数据采集
第5章实战环境搭建
5-1-课程目录
5-2-Scala安装
5-3-Maven安装
5-4-Hadoop环境搭建
5-5-HBase安装
5-6-Spark环境搭建
5-7-开发环境搭建
第6章SparkStreaming入门
6-1-课程目录
6-2-SparkStreaming概述
6-3-SparkStreaming应用场景
6-4-SparkStreaming集成Spark生态系统的使用
6-5-SparkStreaming发展史
6-6-从词频统计功能着手入门SparkStreaming
6-7-SparkStreaming工作原理(粗粒度)
6-8-SparkStreaming工作原理(细粒度)
第7章SparkStreaming核心概念与编程
7-1-课程目录
7-2-核心概念之StreamingContext
7-3-核心概念之DStream
7-4-核心概念之InputDStreams和Receivers
7-5-核心概念之Transformation和OutputOperations
7-6-案例实战之SparkStreaming处理socket数据
7-7-案例实战之SparkStreaming处理文件系统数据
第8章SparkStreaming进阶与案例实战
8-1-课程目录
8-2-实战之updateStateByKey算子的使用
8-3-实战之将统计结果写入到MySQL数据库中
8-4-实战之窗口函数的使用
8-5-实战之黑名单过滤
8-6-实战之SparkStreaming整合SparkSQL操作
第9章SparkStreaming整合Flume
9-1-课程目录
9-2-Push方式整合之概述
9-3-Push方式整合之FlumeAgent配置开发
9-4-Push方式整合之SparkStreaming应用开发
9-5-Push方式整合之本地环境联调
9-6-Push方式整合之服务器环境联调
9-7-Pull方式整合之概述
9-8-Pull方式整合之FlumeAgent配置开发
9-9-Pull方式整合之SparkStreaming应用开发
9-10-Pull方式整合之本地环境联调
9-11-Pull方式整合之服务器环境联调
第10章SparkStreaming整合Kafka
10-1-课程目录
10-2-SparkStreaming整合Kafka的版本选择详解
10-3-Receiver方式整合之概述
10-4-Receiver方式整合之Kafka测试
10-5-Receiver方式整合之SparkStreaming应用开发
10-6-Receiver方式整合之本地环境联调
10-7-Receiver方式整合之服务器环境联调及StreamingUI讲解
10-8-Direct方式整合之概述
10-9-Direct方式整合之SparkStreaming应用开发及本地环境测试
10-10-Direct方式整合之服务器环境联调
第11章SparkStreaming整合Flume&Kafka打造通用流处理基础
11-1-课程目录
11-2-处理流程画图剖析
11-3-日志产生器开发并结合log4j完成日志的输出
11-4-使用Flume采集Log4j产生的日志
11-5-使用KafkaSInk将Flume收集到的数据输出到Kafka
11-6-SparkStreaming消费Kafka的数据进行统计
11-7-本地测试和生产环境使用的拓展
第12章SparkStreaming项目实战
12-1-课程目录
12-2-需求说明
12-3-用户行为日志介绍
12-4-Python日志产生器开发之产生访问url和ip信息
12-5-Python日志产生器开发之产生referer和状态码信息
12-6-Python日志产生器开发之产生日志访问时间
12-7-Python日志产生器服务器测试并将日志写入到文件中
12-8-通过定时调度工具每一分钟产生一批数据
12-9-使用Flume实时收集日志信息
12-10-对接实时日志数据到Kafka并输出到控制台测试
12-11-SparkStreaming对接Kafka的数据进行消费
12-12-使用SparkStreaming完成数据清洗操作
12-13-功能一之需求分析及存储结果技术选型分析
12-14-功能一之数据库访问DAO层方法定义
12-15-功能一之HBase操作工具类开发
12-16-功能一之数据库访问DAO层方法实现
12-17-功能一之将SparkStreaming的处理结果写入到HBase中
12-18-功能二之需求分析及HBase设计&HBase数据访问层开发
12-19-功能二之功能实现及本地测试
12-20-将项目运行在服务器环境中
第13章可视化实战
13-1-课程目录
13-2-为什么需要可视化
13-3-构建SpringBoot项目
13-4-Echarts概述
13-5-SpringBoot整合Echarts绘制静态数据柱状图
13-6-SpringBoot整合Echarts绘制静态数据饼图
13-7-项目目录调整
13-8-根据天来获取HBase表中的实战课程访问次数
13-9-实战课程访问量domain以及dao开发
13-10-实战课程访问量Web层开发
13-11-实战课程访问量实时查询展示功能实现及扩展
13-12-SpringBoot项目部署到服务器上运行
13-13-阿里云DataV数据可视化介绍
13-14-DataV展示统计结果功能实现
第14章Java拓展
14-1-课程目录
14-2-使用Java开发Spark应用程序
14-3-使用Java开发SparkStreaming应用程序