2021年第四期_全国高校师资培训之专题五-Hadoop+Spark大数据技术应用实战

2021-05-31 泰迪智能科技 1007
分享到:

主办单位:

泰迪杯数据挖掘挑战赛组委会
承办单位:广东泰迪智能科技股份有限公司
协办单位:人民邮电出版社有限公司

北京泰迪云智信息技术研究院


互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习乃至思维方式,深刻展示了世界发展的前景。目前各院校的大数据和人工智能专业教师匮乏、相关落地动手实战应用能力欠缺、授课过程中相关行业实战案例项目缺失等,为加快建设大数据、人工智能专业教师队伍,推动各院校建立大数据人才培训体系和评价体系,特推出全国高校大数据与人工智能师资研修班。本研修班每年在全国范围内滚动开展八期,截止目前已在全国巡回举办50余场,参训教师近6000人次。2021年第四期全国高校大数据与人工智能师资研修班开设七大专题方向,以线上云课堂形式举办,这七大专题方向分别是:专题一 Python金融数据分析实战;专题二 Python网络爬虫与数据处理实战;专题三 Python数据分析与挖掘实战; 专题四 Python机器学习应用于实战;专题五 Hadoop+Spark大数据技术应用实战;专题六 深度学习实战(计算机视觉方向);专题七 深度学习实战(自然语言处理方向)。现将有关详细安排通知如下:

一、课程特色

1、本研修班课程全程强调动手实操,内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解企业级案例,真正的让学员把所学内容和工作实际有效结合、更好地进行教育教学工作。

2、核心课程部分由讲师手把手一起进行实操演练,在具体应用场景中全面掌握相关技能,助力实训教学工作、实际动手的能力。视频制作精良,讲师真人出镜,全面解析专业必备技能,伟相关课程开设和备课、应对科研和项目开发打下坚实基础。

3、课程设有答疑交流讨论群,培训期间助教全程辅助教学,每天提供10小时的实时在线答疑辅导,并进行答疑文档汇总,帮助学员更好地总结学习。

4、本课程配套有基础知识内容,即使零基础学员也能找到适合自己的学习内容和节奏,快速掌握课程知识和技能。

5、所有课程相关源代码、数据、PPT、案例素材全部提供下载,即学即用,教学更轻松!视频内容支持六个月内免费回看,以便复习和参考。

6、全面实践大数据/人工智能项目流程,包括数据采集、数据存储管理、数据探索、数据处理、特征工程、数据建模等课程,提供知识讲解,助力夯实理论基础,掌握核心技术。

7、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。

二、课程安排

专题五 Hadoop+Spark大数据技术应用实战学习时间 7月20日 - 8月1日,共计104学时
证书颁发:高级大数据技术应用职业技术证书费用:2980元(报名费、学习费、资料费、证书费等)

课程模块:Linux操作系统基础、MySQL基础、Java编程基础、Hadoop大数据基础、Hive大数据仓库、HBase非关系型数据库、综合实战:航空客户乘机数据预处理、Scala编程基础、Spark大数据分析基础;

项目实战:广电大数据用户画像(Hadoop+Spark+Hive);

拓展课程:Zookeeper分布式服务框架、Flume大数据采集于传输、Kafka大数据流处理、Flink大数据实时处理、商品实时推荐系统(Flume+Kafka+Flink)。详见附件五 Hadoop+Spark大数据技术应用实战课程大纲

三、师资介绍

讲师_樊哲.jpg樊老师  广东泰迪智能科技股份有限公司特聘讲师,某国际银行大数据开发工程师,Hortonworks授权Apache Hadoop开发者认证培训讲师,Hadoop、Mahout技术实践者和研究者;对Hadoop的MapReduce编程模型有深刻理解,同时对Mahout技术有较深认识和理解,对Mahout源码有深入研究,擅于Mahout中数据挖掘的K均值聚类算法、贝叶斯分类算法、FP树关联规则算法的应用;主编《Mahout算法解析与案例实战》、《Hadoop数据分析与挖掘实战》、《Hadoop与大数据挖掘》等图书专著;具有电信行业和银行也得项目经验和行业知识,主持中国电科院电力大数据平台、电能量数据挖掘与智能分析、客户服务智能分析系统等项目。
郑素铃.jpg郑素铃  广东泰迪智能科技股份有限公司大数据研发工程师、大数据讲师。从事大数据项目研发工作,对Hadoop大数据技术有较深的研究,熟练掌握Hadoop环境部署和Hadoop核心计算框架MapReduce的原理和应用。掌握Spark原理及编程,熟悉使用Spark的图计算Graphx和算法库MLlib。对非结构化数据库HBase以及结构化数据库Hive有深刻的了解。掌握数据挖掘和机器学习的常用算法,熟悉数据挖掘流程,具备项目开发经验,如"数睿思网站用户画像研究"和"法律服务智能推荐系统"项目,在推荐系统方面比较有研究。先后参与了《Hadoop大数据开发基础》、《Spark大数据技术与应用》等图书编写工作。负责过韩山师范学院、西安铁路职业技术学院等高校和教师的大数据培训课程。
焦正升.jpg焦正升  广东泰迪智能科技股份有限公司资深项目研发工程师、高级信息系统项目经理、高级软件开发工程师,拥有7年相关从业经验;致力于信息技术的应用与传播,信息系统产业的发展。精通JAVA编程语言,熟悉Spring Boot、Spring Cloud等主流开发框架、MySQL数据库、VUE数据驱动渐进式框架等主流技术。参与《Hadoop与大数据挖掘》、《Hadoop大数据分析与挖掘实战》等图书的编写。拥有电力、电子政务、轻工环保、交通运输等多项领域的项目管理研发经验,项目团队为北京市信访办研发的"大数据助力智慧信访"系统获得第七届金铃奖-公共服务类"智能决策奖"。

四、证书颁发

学员经在线培训并考试合格后,可以获得本期培训对应专题职业技术证书。

五、报名须知与联系方式

1、报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景,14-20K大小,.JPG格式)

2、本次由广东泰迪智能科技股份有限公司收取费用并开具发票。

3、本期研修班两专题及以上联报者可享受九折优惠。

4、报名联系方式

联系人:曾老师

电话:13246821827

微信:antonia602501

邮箱:zengaizhi@tipdm.com


附件五 Hadoop+Spark大数据技术应用实战课程大纲

基础篇(报名成功后即可开始学习)
时间课程内容学习平台
正式培训前

Linux操作系统基础

1 Linux简介

1.1 Linux简介与发展历程

1.2 Linux常见版本

2 Linux基本命令

2.1 Linux文件系统树

2.2 创建与删除目录或文件

2.3 查看文件内容

2.4 创建硬连接和符号链接

2.5 帮助命令

2.6 重定向相关命令

2.7 用户及用户组

2.8 权限相关命令

2.9 用户、用户组及权限实践操作进程

3 Linux Vi编辑器

3.1 模式介绍与常见快捷命令

3.2 一般模式快捷键

3.3 编辑模式与指令模式快捷键

泰迪云课堂

MySQL基础

1 数据库概述

1.1 数据库概述

1.2 数据库基本概念介绍

2 MySQL安装与配置

2.1 MySQL安装与配置

2.2 可视化工具使用

3 MySQL基本命令

3.1 创建与擅长数据库

3.2 数据结构与数据类型

3.3 主键与外键

3.4 创建、修改、删除表

3.5 插入与删除数据

4 SQL语法操作

4.1 MySQL常用运算符

4.2 MySQL数据更新操作

4.3 MySQL数据查询过操作

5 MySQL联表操作与子查询

5.1 联表查询

5.2 子查询

5.3 复制表

6 MySQL 函数

6.1 函数类型介绍

6.2 SQL函数应用

7 约束与索引

7.1 约束介绍与设置

7.2 索引介绍与设置

泰迪云课堂

Java编程基础

1 基础知识

1.1 Java简介

1.2 Java安装配置

1.3 Java基础语法

1.4.1 Java基本数据类型&引用数据类型

1.4.2 Java变量

1.5 Java String类

1.6.1 Java运算符-赋值运算符&算术运算符

1.6.2 Java运算符-关系、逻辑、其他运算符

1.7 循环、条件、循环中断

1.8 Java数组

1.9 Java函数

1.10.1 Java集合简介

1.10.2 Java集合之List

1.10.3 Java集合之Set

1.10.4 Java集合之Map

1.11 Java泛型

2 面向对象

2.1 Java类、对象

2.2.1 Java类对象

2.2.2 Java构造函数

2.2.3 Java类继承

2.2.4 Java类多态

2.3.1 Java抽象类

2.3.2 Java接口

3 线程及异常处理

3.1 Java多线程

3.2 Java包、异常


核心课程篇
时间课程内容学习平台
第一课 Hadoop大数据基础

7月20日

18:30 - 22:00

1 Hadoop介绍

1.1 认识大数据

1.2 Hadoop核心组件

1.3 Hadoop特性与生态环境

1.4 Hadoop应用场景

2 Hadoop集群安装与部署

2.1 安装虚拟机

2.2 安装Java

2.3 Hadoop集群部署模式

2.4 配置固定IP

2.5 配置ssh无密码登录

2.6 Hadoop集群安装与部署

2.7 Hadoop配置参数介绍

2.8 Hadoop集群启动与监控界面介绍

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月21日

18:30 - 22:00

3 Hadoop基础操作

3.1 Hadoop安全模式

3.2 Hadoop集群基本信息

3.3 HDFS常用Shell操作

3.4 MapReduce常用Shell操作

3.5 MapReduce任务管理

3.6 YARN资源管理及调度策略

4 MapReduce开发入门

4.1 MapReduce框架与设计构思

4.2 MapReduce开发环境搭建

4.3 MapReduce单词计数源码解析

4.4 MapReduce API介绍

4.5 MapReduce Java开发实战:按日期统计访问次数

4.6 MapReduce Java开发实战:用户访问次数排序

5 MapReduce编程进阶

5.1 MapReduce输出文件格式介绍及序列化文件生成

5.2 MapReduce输入文件格式介绍及读取序列化文件

5.3 MapReduce程序优化:Combiner&Partitioner应用

5.4 提交MapReduce程序

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群
第二课 Hive大数据仓库

7月22日

18:30 - 22:00

1 Hive概述

1.1 Hive的产生背景

1.2 Hive体系架构

1.3 数据类型

1.4 与传统数据库的区别

1.5 Hive的应用

2 Hive安装配置

2.1 安装MySQL

2.2 安装Hive

3 Hive表定义

3.1 Hive创建内表和外表

3.2 Hive创建静态分区表

3.3 Hive创建动态分区表

3.4 创建带有数据的表

4 Hive导入导出数据

4.1 Hive导入本地或者HDFS上的数据

4.2 Hive单表查询和多表查询导入数据

4.3 Hive导出数据

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月23日

18:30 - 22:00

5 Hive查询

5.1 Hive查询语法及distinct操作

5.2 Hive order by和内置函数查询

5.3 Hive group by查询

5.4 Hive join查询

5.5 Hive子查询和case when查询

6 函数

6.1 Hive内置函数

6.2 Hive自定义函数

7 综合实战:航空客户乘机数据预处理

泰迪云课堂

操作演练/作业

泰迪大数据编程实训平台
在线答疑微信群
第三课 HBase非关系型数据库

7月24日

18:30 - 22:00

1 HBase简介

1.1 认识HBase

1.2 HBase使用场景

2 HBase安装配置

2.1 HBase集群拓扑简介

2.2 Zookeeper集群安装配置

2.3 HBase安装配置

2.4 HBase监控界面讲解

3 HBase架构原理

3.1 HBase数据模型

3.2 HBase架构

3.3 HBase读写流程

4 HBase Shell基本操作

4.1 命令空间操作

4.2 创建表

4.3 修改和删除表

4.4 插入数据到表中

4.5 查看表数据

4.6 删除表数据

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月25日

18:30 - 22:00

5 HBase表的模式设计

5.1 HBase表设计

6 HBase Java API应用

6.1 搭建HBase开发环境

6.2 建立HBase数据库连接实例

6.3 创建或删除表应用实例

6.4 设置Region分割点应用实例

6.5 修改表结构应用实例

6.6 写入数据应用实例

6.7 查看一行数据应用实例

6.8 扫描表数据应用实例

6.9 删除数据应用实例

6.10 创建职工信息表emp

6.11 写入数据到职工信息表

6.12 查找指定范围职工信息

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群
第四课 Scala编程基础

7月26日

18: 30 - 22:00

1 Scala简介与安装

1.1 Scala简介与特性

1.2 Scala安装

2 Scala基础语言

2.1 Scala数据类型

2.2 Scala变量

2.3 Scala运算符

2.4 条件控制与循环

2.5 函数

3 Scala集合

3.1 Scala集合-Array

3.2 Scala集合-List

3.3 Scala集合-Set

3.4 Scala集合-Map

3.5 Scala集合-Tuple

3.6 内置函数组合器

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月27日

18:30 - 22:00

4 Scala异常

5 Scala类

5.1 类定义

5.2 构造函数

5.3 成员变量和方法

5.4 单例对象、伴生类和伴生对象

5.5 文件读写

6 Scala应用实例

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群
第五课 Spark大数据分析基础

7月28日

18:30 - 22:00

1 Spark概述

1.1 认识Spark

1.2 搭建Spark环境

1.3 了解Spark运行架构与原理

1.4 Spark生态系统

2 Spark编程

3 RDD

3.1 创建RDD

3.2 RDD Transform算子应用

3.3 RDD Actiion算子应用

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月29日

18:30 - 22:00

4  Spark编程进阶

4.1 搭建开发环境

4.2 编程实现学生信息分析

4.3 程序编译

4.4 任务提交与运行模式

4.5 查看任务监控

4.6 RDD持久化

4.7 RDD依赖与容错

5 Spark SQL:结构化数据文件处理

5.1 认识Spark SQL

5.2 认识DataFrame、DataSet

5.3 掌握DataFrame基础操作

5.4 探索分析法律服务网站数据

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群

7月30日

18:30 - 22:00

6 Spark与机器学习库

6.1 机器学习简介

6.2 MLlib各模块简介

6.3 探索分析模块

6.4 算法模块

6.5 模型评估与优化模块

6.6 PipeLine介绍

6.7 PipeLine整合预处理、建模、调优、评估过程

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群
第六课 项目实战:广电大数据用户画像(Hadoop+Spark+Hive)

7月31日

18:00 - 22:00

1 项目需求

1.1 项目背景

1.2 项目目标

2 技术方案

2.1 技术选型

2.2 系统构架

3 数据存储与传输

3.1 创建Hive表

3.2 CSV数据导入到Hive

4 需求探索

4.1 数据说明

4.2 基础探索

4.3 业务需求探索

4.4 需求探索总结

5 基础数据预处理

6 SVM预测用户是否挽留

6.1 SVM算法简介

6.2 构建特征列和标签列数据

6.3 建立SVM模型

6.4 模型评估与预测

7 用户画像

7.1 用户画像概述

7.2 标签计算

7.3 标签展示

泰迪云课堂
操作演练/作业泰迪大数据编程实训平台
在线答疑微信群
拓展自学篇
自行安排

1 Zookeeper分布式服务框架

2 Flume大数据采集与传输

3 Kafka大数据流处理

4 Flink大数据实时处理

5 商品实时推荐系统(Flume+Kafka+Flink)


第七课 在线考试

8月1日

高级大数据技术应用职业技术在线考试泰迪云课堂