关于召开“Hadoop+Spark大数据开发”与“Python数据分析与机器学习”培训班的通知

2018-06-21 泰迪智能科技 3320
分享到:
培训背景

由于科学技术的飞速发展和数据井喷式爆发,大数据已渗透到当前社会生活的方方面面,根据Wikibon数据预测截止至2027年,整体大数据市场的年增长率将以11%的速度增长,全球将达1030亿美元。预计未来3年,中国大数据市场规模仍将以30%以上的速度增长,社会岗位需求达到百万级,同时大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。

但目前国内大数据人才数量远远满足不了企业需求,国内高校2016年才开始设立大数据专业,且大数据岗位要求的实战能力需要学生从实战项目中锻炼获得,高校很难直接提供相应资源。

为满足社会日益增长的人才需求,培养出符合企业要求的专业人才,同时也为各高校提供实战培训支援,协助高校大数据人才培养落地,广州泰迪智能科技有限公司结合自身在大数据行业的多年经验与积累的资源,特推出“Hadoop+Spark大数据开发”与“Python数据分析与机器学习”培训班。

培训对象

高校相关专业教师、学生及有志于从事大数据或数据分析与机器学习相关岗位工作的人士。

培训内容

方向一:Hadoop+Spark大数据开发

方向二:Python数据分析与机器学习

培训目标

1.学员掌握并能够熟练使用Hadoop+Spark/Python等大数据与机器学习核心开发工具,并应用于实际工作;
2.熟知大数据开发或数据分析挖掘项目的基本流程,建立良好的数据思维;
3.熟悉常见数据分析和机器学习算法原理及编程实现,掌握聚类、分类、回归、决策树、SVM、神经网络等常见算法及深度学习算法和开源框架TensorFlow等;
4.通过集中培训和项目实训,能够独立完成一个企业级项目,满足企业实际用人需求;
5.符合大数据/数据分析与机器学习岗位要求,顺利进入大数据/数据分析或人工智能行业。

培训特色

1.课程内容从企业实际需求出发,以满足企业用人需求为标准;

2.培训设置以实际项目为驱动,实施鱼骨教学法,从实战中来到实战中去; 

3.讲师为系列图书作者和高校教授,兼具工程和教学经验;

4.五大经典案例深入剖析,掌握客户分析、推荐系统、文本挖掘、图片识别等业务场景数据分析和建模方法;

5.通过全真项目实战获得宝贵的项目经验,收获高薪offer;

6.企业面试官、职场老司机的职场经验分享;

7.视频课程免费看,整个培训课程都会进行视频录制,并免费提供给学员观看,以便复习巩固。

培训方案及课程安排

    一个半月脱产集中培训加项目实战,系统学习大数据或数据分析与机器学习方法、工具及实战案例,具备Hadoop+Spark编程开发/Python数据分析+机器学习能力。

Python数据分析与机器学习课程安排
Linux & MySQLPython编程基础Python数据分析与应用Python与机器学习

1、Linux简介与安装;

2、Linux目录与权限管理;

3、文件基础操作与vim 程序编辑器;

4、Bash简介及功能介绍、Shell Script编程;

5、数据库概述;

6、MySQL基本知识与体系结构;

7、MySQL基础语句与编程;

8、数据库和表的创建及增删改查操作

1 准备工作;

1.1 认识Python;

1.2 搭建Python环境;

1.3 安装PyCharm并创建一个应声虫程序;

2 Python基础知识;

2.1 掌握Python固定语法;

2.2 创建字符串变量并提取里面的数值;

2.3 计算圆形的各参数;

3 Python数据结构;

3.1 创建一个列表(list)并进行增删改查操作;

3.2 转换一个元组(tuple)并进行取值操作;

3.3 创建一个字典(dict)并进行增删改查操作;

3.4 将两个列表转换为集合(set)并进行集合运算;

4 程序流程控制语句;

4.1实现考试成绩划分;

4.2实现一组数的连加与连乘;

4.3使用冒泡排序法排序;

4.4实训(猜数字游戏);

5 函数;

5.1自定义函数实现输出方差;

5.2使用匿名函数添加列表元素;

5.3存储并导入函数模块;

6 面向对象;

6.1 认识面向对象编程;

6.2 创建Car类;

6.3 创建Car对象;

6.4 迭代Car对象;

6.5 产生Land_Rover对象(子类);

7 文件基础;

7.1 认识文件;

7.2 读取txt文件中的数据;

7.3 保存数据为csv格式文件;

7.4 认识os模块.

1 Python数据分析概述

1.1认识数据分析

1.2熟悉Python数据分析的工具

1.3安装Python3的Anaconda发行版

1.4掌握Jupyter Notebook常用功能

2 NumPy数值计算基础

2.1认识NumPy数组对象ndarray

2.2认识NumPy矩阵与通用函数

2.3利用NumPy进行统计分析

3 Matplotlib数据可视化基础

3.1了解绘图基础语法与常用参数

3.2分析特征间的关系

3.3分析特征内部数据分布与分散状况

4 Pandas统计分析基础

4.1读写不同数据源的数据

4.2掌握DataFrame的常用操作

4.3转换与处理时间序列数据

4.4使用分组聚合进行组内计算

4.5创建透视表与交叉表

5 使用Pandas进行数据预处理

5.1合并数据

5.2清洗数据

5.3标准化数据

5.4转换数据

6使用scikit-learn构建模型

6.1使用sklearn转换器处理数据

6.2构建并评价聚类模型

6.3构建并评价分类模型

6.4构建并评价回归模型

7 航空公司客户价值分析

7.1了解航空公司现状与客户价值分析

7.2预处理航空客户数据

7.3使用K-Means算法进行客户分群


1机器学习绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.4 归纳偏好

2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 偏差与方差

3 回归分析(Regression Analysis)

3.1 基本形式

3.2 线性模型

3.3 逻辑回归

4 决策树(Decision Tree)

4.1 基本流程

4.2 划分选择

4.3 剪枝

5 人工神经网络(Artificial Neural Network)

5.1 神经元模型

5.2 感知机与多层网络

5.3 误差逆传播

5.4 BP神经网络

6 最近邻算法(KNN)

7 朴素贝叶斯分类(Naive Bayesian)

8 聚类分析(Cluster Analysis)

8.1 聚类任务

8.2 性能度量

8.3 距离计算

8.4 常用聚类算法

9 关联规则(Apriori)

10 支持向量机(Support Vector Machine)

10.1 间隔与支持向量

10.2 对偶问题

10.3 核函数

10.4 软间隔与正则化

11 智能推荐(Collaborative Filtering)

12 深度学习介绍(Deep Learning)

Python自然语言处理Python机器视觉与图像处理综合案例

1 文本挖掘全流程概述

2 文本挖掘预处理技术

3 中文分词介绍(jieba)

4 词云介绍(wordcloud)

5 正则表达式

6 文本特征提取

7 文本聚类

8 主题分析


1 图像数据处理

2 水质图像识别

3 TensorFlow入门与应用

4 图像识别与卷积神经网络

5 MNIST数字识别


1 电力窃漏电用户自动识别

2 垃圾短信分类与识别

3 电商产品评论数据情感分析

4 电子商务智能推荐服务

5 基于微博数据的网络舆情分析



Hadoop+Spark大数据开发课程安排
Linux基础数据库SQL基础Java基础Hadoop编程开发

1、Linux操作系统简介、安装及使用

2、Linux档案权限与目录配置、档案与目录管理、用户账号管理

3、文件操作、文本编辑、vim 程序编辑器

4、Bash简介及功能介绍、Shell Script编程

1、数据库概述、数据库系统、管理系统

2、MySQL安装配置、基本操作、MySQL连接工具的使用

3、数据库基础知识概述:数据库、表结构、字段及其数据类型、运算符

4、SQL概述,数据库及表的创建基本操作

5、增删改查语句,使用Java程序进行增删改查
                           

1.Java基础程序设计:数据类型、运算符、表达式、判断循环语言;

2.数组定义与使用、方法定义与重载;

3.面向对象(基础);

4.面向对象(高级);

5.异常概念与编程;包概念与导入;泛型概念与编程应用;

6.Java类集:Collection接口主要操作方法:List、Set、Map常用子类与使用,集合操作与遍历方法;

7.多线程编程及应用;

8.Java EE编程实战;JavaEE基础,HTML,JavaScript,Java Web,Tomcat,JSP。


1.Hadoop简介、架构、原理;

2.集群配置及安装(JDK、SSH);

2. Hadoop IDE开发环境配置(Eclipse配置);

3. Hadoop MapReduce实战:单词计数;

4. Hadoop命令(hadoop fs , hadoop job, Hadoop jar);

5.分布式文件系统HDFS  Java API实战:创建目录,上传,下载,删除;

5. Hadoop基础编程(Mapper、Reducer、Driver);

6. Hadoop高级编程(Combiner/Partitioner原理实战及自定义,FileInputFormat、FileOutputFormat);

8. Hadoop高级编程(自定义键值对);

9. Hadoop高级编程(开发环境直接运行MapReduce程序);

10. Hadoop案例1:基于KNN的鸢尾花分类预测;

11. Hadoop案例2:基于Kmeans的客户价值分析。

Hive大数据分析HBase数据快速读写Spark大数据分析与编程实战案例

1. Hive产生背景、概念,Hive架构、原理;

2. Hive安装、配置;

3.Hive与RDBMS区别,Hive应用场景;

4. Hive HQL命令,数据库,表创建;数据导入、导出,HQL查询;

5.Hive内置函数,自定义函数(UDF);

6.Hive与Java交互;

7.基于Hive的航空公司客户价值分析项目案例。

                           

1.HBase简介、架构原理;

2.HBase集群安装配置(Zookeeper简介、Zookeeper安装配置、配置文件解读);

3.HBase架构与数据模型(组件原理功能、Rowkey设计、Schema设计);

4.HBas命令行(hbase shell)表操作;

5.HBase开发环境配置; 

6.Java API操作HBase删/建表、HBase增删改查;

7.HBase与Hadoop Mapreduce交互(HBase to HDFS, HDFS to HBase,HBase to HBase);

9.基于HBase的冠字号查询系统(案例背景、架构、数据处理、建表、导入表数据实现);

10.基于HBase的冠字号查询系统Java Web实现。


1.Spark 简介(Spark简介、应用场景);  

2.Spark安装配置(资源管理器YARN/Spark Standalone);

3. Spark整合Hive及传统数据库;

3.原理与架构(组件功能、RDD原理);

4.Spark编程基础(Scala及编程简介);

5.Spark Transformation/Action编程;

6.Spark Intellij IDEA开发环境配置;

7.基于Spark ALS算法的电影推荐系统(案例背景、系统架构);

8.基于Spark ALS算法的电影推荐系统(Spark Shell简单实现& Java Web远程调用Spark集群实现);


一、基于Hadoop、Spark的法律网智能推荐

1.法律网案例背景,架构设计;

2.数据预处理:异常数据探索、数据剔除;

3.系统数据预处理实现;

4.推荐算法简介、评估与选型;

5.系统模型建立、预研、调优;

6.系统模型完整实现。

二、基于Spark FPGrowth的餐饮智能菜品推荐

1.餐饮案例背景、架构设计;

2.数据预处理:上传、数据探索、异常处理;

3.推荐模型预研、评估与选型;

4.MLlib FPGrowth调用与编码实现;

5.系统模型建立、评价、调优;

6.系统模型完整实现。


讲师团成员

讲师为系列图书作者和高校教授,兼具工程和教学经验,祥见附件。

培训认证

完成培训课程并经考核合格的学员可获得:

1、由泰迪智能研究院国际认证培训中心颁布的“CBDA”大数据认证证书。

 794548635500412700.png

2、工业和信息化部教育与考试中心颁发的大数据分析师“职业技术证书”(另收证书费500元、自愿原则)

195141656176334698.png

合作企业

{4287DD83-D617-8D4A-6007-E916D853B6CA}.png

培训时间地点

时间:2018年7月16日至2018年8月24日

地点:广州市黄埔区科学城开泰大道36号1栋212

价格

16800元/人

申请方式

联系人 : 13928715431(何老师)
咨询方式: 517182985(QQ号)  020-22205718
报名邮箱: train-6@tipdm.com
机构网址: www.tipdm.com

附件:讲师团队介绍
董事长:张良均

张良均

职位:广州泰迪智能科技有限公司董事长

高级信息系统项目管理师,“泰迪杯”全国大学生数据挖掘竞赛(www.tipdm.org)发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事;兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师;

发表数据挖掘相关论文数十篇,已取得国家发明专利12项,发表《神经网络实用教程》、《数据挖掘:实用案例分析》、《MATLAB数据分析与挖掘实战》、《R语言数据分析与挖掘实战》、《Python数据分析与挖掘实战》 、《Hadoop大数据分析与挖掘实战》等专著。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书;

具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

讲师_徐圣兵

徐圣兵

职位:广州泰迪智能科技有限公司特邀讲师

计算机应用工程博士,SAS高级数据分析师;全国大学生数学建模竞赛优秀指导老师,全国数据挖掘竞赛评审专家,全国高校大数据教育联盟理事,中国工业与应用数学学会会员。

研究方向:数学建模、机器学习、人工智能。

主要成果:指导学生曾获美国大学生数学建模一等奖4项、二等奖15项;全国大学生数学建模竞赛国家一等奖1项、二等奖5项,省级奖40多项;主持广东省科技计划项目一项,申请专利10多项,授权3项。

讲师:毛紫阳

毛紫阳

职位:国防科技大学数学系副教授

美国大学生数学建模竞赛特等奖指导教师,全国大学生数学建模竞赛优秀指导教师,2007、2009、2013、2016年赛题命题人。《数学建模与数学实验》国家精品课程、国家精品资源共享课程团队主要成员。获军队教学成果奖1项,湖南省科技进步三等奖1项。

具有算法设计、图像处理、气象遥感数据处理等项目经验。

讲师:谢佳标

谢佳标

职位:广州泰迪智能科技有限公司特邀讲师、高级数据分析师、高级讲师

微软中国MVP,多届中国R语言大会演讲嘉宾,目前在创梦天地担任高级数据分析师一职,作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘, 主要利用R语言进行大数据的挖掘和可视化工作。

从事数据挖掘建模工作已有9年,曾经从事过咨询、电商、电购、电力、游戏等行业,了解不同领域的数据特点。有丰富的利用R语言进行数据挖掘实战经验。

合著《R语言与数据挖掘》及《数据实践之美》等书籍,均在京东有卖。此外《R语言游戏数据分析与挖掘》即将出版。培训过的精品课程有:《R语言十三式》、《R语言快速入门》、《R语言文本挖掘快速入门》等。

讲师:陈建平

陈建平

职位:广州泰迪智能科技有限公司高级培训师

专业资深讲师,11年相关项目经历,长期从事大数据相关的工作;

精通大数据技术,熟悉关系型数据库oracle10G\Mysql\DB2和GreenPlum等;精通hadoop、Hbase、HDFS、Hive、Pig、Hue、Spark等开源技术,对实时处理Storm、Spark Streaming有较深的认识,熟悉分布式计算MapReduce;非常精通数据挖掘算法和解决方案;

熟悉spss\R语言\SparkMLlib等挖掘工具及算法,如决策树、K-means、神经网络、Logistc线性回归、Apriori算法、协同过滤算法等;熟悉零售、电信、移动、电力、证券、网络、物流、无线等行业。

讲师:刘名军

刘名军

职位:广州泰迪智能科技有限公司技术副总经理

中山大学计算机科学与技术专业,高级信息系统项目管理师

专注于hadoop及相关子系统(hbase/pig/hive),Cassandra,memcached等云计算相关产品的研究;具有丰富的计算机软件、数据挖掘算法及应用的经验;

曾主持电力行业统计分析决策系统、电力大数据平台、客户停电数据综合分析系统、异常用电智能诊断系统、贵阳民政部数据铁笼项目等多个百万级的项目管理和研发工作,具有丰富的项目管理和研发工作经验,给电力、民政、政府等行业,进行数据挖掘应用培训十余场。

讲师_樊哲

樊哲

职位:广州泰迪智能科技有限公司高级项目经理

Hortonworks授权Apache Hadoop 开发者认证培训讲师,Hadoop、Mahout技术实践者和研究者;对Hadoop的MapReduce编程模型有深刻理解,同时对Mahout技术有较深认识和理解,对Mahout源码有深入研究,擅于Mahout中数据挖掘的K均值聚类算法、贝叶斯分类算法、FP树关联规则算法的应用;

主编《Mahout算法解析与案例实战》、《Hadoop数据分析与挖掘实战》、《Hadoop与大数据挖掘》等图书专著;

具有电信行业和银行业的项目经验和行业知识,主持中国电科院电力大数据平台、电能量数据挖掘与智能分析、客户服务智能分析系统等项目。

讲师:施兴

施兴

职位:广州泰迪智能科技有限公司高级项目经理、产品总监

从事用户数据分析和挖掘工作多年,熟悉数据挖掘项目分析流程;具有丰富的数据处理系统的设计研发经历,主要在大数据教学系统、金融分析系统方面有深入研究。精通Python、R 、SPSS等多种数据挖掘工具;

参与并主持多本图书的编写及出版工作,如《Python与数据挖掘》、《R语言与数据挖掘》、《数据分析与应用(Python)》、《Python编程基础》等。直接参与北京民政部低保建模领域核对分析、南方航空客户价值分析、美的电器家用电器用户行为分析与识别、南方电网电力窃漏电用户自动识别等大型企业顾问咨询项目。

讲师_张敏

张敏

职位:广州泰迪智能科技有限公司高级数据分析师、培训总监

从事用户数据分析和数据挖掘工作五年,具有丰富的数据挖掘理论及实践培训经验,对数据具有较高的敏感度,根据数据对其进行全面的统计分析。

精通R、Python、Matlab等多种数据挖掘工具,擅长市场发展情况监控、精确营销方面的数据挖掘工作

有为南方电网、轩辕网络等大型企业长期提供实施服务的经验,主导了电子商务网站用户行为分析及网页智能推荐服务、中医证型关联规则挖掘、电信业务话单量预测、航空公司客户价值分析等多个项目。

2017年“泰迪杯数据挖掘挑战赛教练员培训”主讲讲师。先后负责过广西师范学院、广西科技大学、闽江学院、广东石油化工学院、上海健康医学院等高校实训课程及德生科技等企业内训和数据挖掘就业班的课程。

讲师:王宏刚

王宏刚

职位:广州泰迪智能科技有限公司培训讲师

从事IT系统架构设计与运维多年,有丰富的系统与数据库调优经验;熟悉针对电子商务网站与游戏平台的数据分析业务流程;有带领团队组建游戏数据仓库,支持多个业务系统的实践经验。精通MySQL、Oracle等多种数据库产品;

参与过多本大数据相关图书的编写工作,如《Hadoop大数据技术与应用》、《Spark大数据技术与应用》等。先后负责过广东水力电力职业学院、惠州学院、韩山师范学院等高校的大数据技术培训课程。

讲师:何贤斌

何贤斌

职位:广州泰迪智能科技有限公司高级数据分析师

应用数学专业,熟悉数据挖掘各种分析方法,在推荐系统以及模式识别方面有着较为深入的研究;擅于从数据中寻找出其中的规律,对数据进行搜集、整理、分析,并依据数据做出行业研究、评估和预测;精通R、MATLAB、SPSS modeler等多种数据挖掘工具;擅长使用R语言进行数据处理以及建模分析;

主要负责贵阳电网,广州电网等项目,在电力、电子商务、餐饮等行业有着项目实战经验
曾主导贵阳师范学院、广西科技大学、西北大学、东北农业大学等多所高校的培训指导工作

讲师:杨惠

杨惠

职位:广州泰迪智能科技有限公司高级数据分析师

数学与应用数学专业,有较强的统计学、数学、数据挖掘理论功底;
从事数据挖掘工作四年,逻辑思维能力强,擅长文本挖掘,熟悉常用机器学习算法原理及应用,如神经网络、SVM、决策树、贝叶斯等算法;精通R、Python、MATLAB等常用数据挖掘处理工具;

曾负责PPV商业培训、珠海城职院师资培训等多次大数据挖掘培训课程
负责 “京东电商产品评论情感分析”项目,完成了评论数据情感模型的构建
负责“珠江数码大数据营销推荐应用”项目,完成了珠江数码数据库的构建及产品推荐模型
负责“电子商务网站智能推荐服务”项目,并完成了协同过滤算法在项目的实现
负责“2015年农药行业报告”项目,完成了中国市场上农药产品Top90的产能产量分析统计

泰迪科技2018年度培训开班计划
序号培训班名称培训时间课时地点面向对象备注


1


Python数据分析与机器学习定向培养班


2018年5月21日

      至

2018年7月13日


  

  2个月


 广州


学生

社会人士


 2大数据与机器学习(Python)双实型师资培训

 2018年6月10日

       至

 2018年6月15日


   6天  广州  教师
 3Python机器学习与人工智能师资培训

 2018年7月15日

       至

 2018年7月25日


   11天  广州  教师
 4Python数据分析与机器学习脱产班

 2018年7月16日

       至

 2018年8月23日

   1.5月  广州

  学生

  教师


 5Hadoop+Spark大数据开发脱产班

 2018年7月16日

      至

 2018年8月23日


   1.5月  广州

  学生

  教师


 6大数据与机器学习(Python)双师型师资培训

 2018年8月12日

       至

 2018年8月17日


    6天  广州  教师
 7大数据与机器学习(Python)双师型师资培训

 2018年10月21日

       至

 2018年10月26日

    6天  广州  教师
 8大数据与机器学习(Python)双师型师资培训

 2019年1月7日

       至

 2019年1月12日

    6天  广州  教师