大家好,欢迎大家来到我在慕课网上的实战课程《Hadoop基础与电商行为日志分析》的官方代码仓。在本仓库中将提供课程学习过程中的代码以及笔记,如有错误信息,也欢迎大家以pull request的方式更新上来。
- code:该课程的所有代码
- note:该课程的所有笔记
- OOTB环境:请关注课程页面
下载
的大型资料下载
本门课程将按照如下模块进行讲解
- 大数据概述:介绍大数据的概念、特征、所带来的挑战、典型应用场景
- 初识Hadoop:Hadoop概述、核心组件HDFS&MapReduce&YARN介绍、Hadoop优势、Hadoop发展史、Hadoop生态圈、Hadoop发行版选择
- 分布式文件系统HDFS:HDFS概述&设计目标&架构详解&NameSpace详解&副本机制、HDFS环境部署&启动、Hadoop命令行操作详解、Hadoop文件的存储机制、HDFS API操作、HDFS项目实战、HDFS读写数据流程剖析、HDFS Checkpoint详解、HDFS SaveMode
- 分布式计算框架MapReduce:MapReduce概述&编程模型详解&编程模型核心概念详解、词频统计实现、词频统计Debug、词频统计升级、流量统计实战
- 资源调度框架YARN:产生背景、概述、架构详解、执行流程、环境部署、example案例&流量统计案例运行在YARN上
- 电商项目实战Hadoop实现:用户行为日志概述&内容介绍、电商常用术语、项目需求概述、数据处理流程及技术架构、浏览量统计功能实现、省份流量统计功能实现、页面浏览量统计功能实现、介绍ETL在数据处理过程中的重要性、升级浏览量统计&省份浏览量统计&页面浏览量统计三大功能、项目思路扩展
- 数据仓库Hive:Hive的产生背景、Hive在Hadoop生态圈中的地位、Hive体系架构、Hive部署架构、Hive与RDBMS的区别、Hive部署、Hive DDL操作、Hive DML操作、Hive QL基本统计&聚合函数&分组函数&Join使用&执行计划
- 电商项目实战Hive实现:外部表的使用、分区表创建、将ETL的数据加载到Hive表、使用Hive完成统计分析功能、Hive实现项目方便性的体现
- Hadoop分布式集群搭建:集群规划、前置条件安装、JDK安装、Hadoop集群部署、提交作业运行在Hadoop集群上