2021年第四期_全国高校师资培训之专题二 Python网络爬虫与数据处理实战

2021-06-09 泰迪智能科技 416
分享到:

主办单位:

泰迪杯数据挖掘挑战赛组委会
承办单位:广东泰迪智能科技股份有限公司
协办单位:人民邮电出版社有限公司

北京泰迪云智信息技术研究院


互联网、大数据、云计算、人工智能等现代信息技术深刻改变着人类的生产、生活、学习乃至思维方式,深刻展示了世界发展的前景。目前各院校的大数据和人工智能专业教师匮乏、相关落地动手实战应用能力欠缺、授课过程中相关行业实战案例项目缺失等,为加快建设大数据、人工智能相关专业教师队伍,推动各院校建立大数据人才培训体系和评价体系,特推出全国高校大数据与人工智能师资研修班。本研修班每年在全国范围内滚动开展八期,截止目前已在全国巡回举办50余场,参训教师近6000人次。2021年第四期全国高校大数据与人工智能实战研修将分别开设七个专题方向,分别是:专题一 Python金融数据分析实战;专题二 Python网络爬虫与数据处理实战;专题三 Python数据分析与挖掘实战;专题四 Python机器学习应用于实战;专题五 Hadoop+Spark大数据技术应用实战;专题六 深度学习实战(计算机视觉方向);专题七 深度学习实战(自然语言处理方向)。现将有关详细安排通知如下:

一、课程特色

1、本研修班课程全程强调动手实操,内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解企业级案例,真正的让学员把所学内容和工作实际有效结合、更好地进行教育教学工作。

2、核心课程部分由讲师手把手一起进行实操演练,在具体应用场景中全面掌握相关技能,助力实训教学工作、实际动手的能力。视频制作精良,讲师真人出镜,全面解析专业必备技能,为相关课程开设和备课、应对科研和项目开发打下坚实基础。

3、课程设有答疑交流讨论群,培训期间助教全程辅助教学,每天提供10小时的实时在线答疑辅导,并进行答疑文档汇总,帮助学员更好地总结学习。

4、本课程配套有基础知识内容,即使零基础学员也能找到适合自己的学习内容和节奏,快速掌握课程知识和技能。

5、所有课程相关源代码、数据、PPT、案例素材全部提供下载,即学即用,教学更轻松!视频内容支持六个月内免费回看,以便复习和参考。

6、全面实践大数据/人工智能项目流程,包括数据采集、数据存储管理、数据探索、数据处理、特征工程、数据建模等课程,提供知识讲解,助力夯实理论基础,掌握核心技术。

7、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。

二、课程安排

专题二 Python网络爬虫与数据处理实战学习时间: 7月20日 - 7月27日,共计64学时
证书颁发:高级Python技术应用工程师费用:1980元(报名费、学习费、资料费、证书费等)

课程模块:Python编程基础、Python数据处理与可视化、Python网络爬虫。

Python网络爬虫:概述与静态网页采集、动态网页采集与模拟登陆、终端协议分析与Scrapy爬虫。

数据采集与处理实战:《流浪地球》豆瓣影评采集与分析、《红海行动》B站弹幕采集与分析、大数据岗位人才招聘信息的分析与挖掘、Python爬虫助力疫情数据追踪。

详见附件二 Python网络爬虫与数据处理实战课程大纲

三、师资介绍

张敏.jpg张敏  广东泰迪智能科技股份有限公司、培训总监,从事用户数据分析和数据挖掘工作六年,具有丰富得大数据挖掘理论及实践培训经验,对数据具有较高的敏感度,根据数据对其进行全面得统计分析。精通Python、R语言、Matlab等多种数据挖掘工具。擅长市场发展情况监控、精确营销方面得数据挖掘工作。有为南方电网、珠江数码等大型企业长期提供实施服务得经验,主导了电子商务网站用户行为分析及网页智能推荐服务、中医证型关联规则挖掘、电信业务话单量预测、航空公司客户价值分析等多个项目。2017年"泰迪杯数据挖掘挑战赛教练员培训"主讲讲师,2018年广东省Python与深度学习技术师资培训班主讲讲师、2018年第一/三/五期全国高校大数据核心技术与应用师资研修班主讲讲师、2019年第一/二/三期全国高校大数据与人工智能师资研修班主讲讲师,2019年国家电网大数据竞赛河北、湖南省、甘肃省电力系统培训班主讲讲师,先后负责过西安理工大学、广东工业大学、广西师范学院、广西科技大学、闽江学院、广东石油化工学院、上海健康医学院等高校实训课程及德生科技等企业内训和数据挖掘就业班的课程。组织、参与编写图书《Python编程基础》、《Python数据分析与应用》、《R语言编程基础》等。
律波-1.jpg律波.jpg律波  广东泰迪智能科技股份有限公司高级数据分析工程师,应用统计学硕士,有较强的统计学、数学、数据挖掘理论功底;精通R、Python、Power BI、Excel等数据挖掘分析工具,具有丰富的培训和项目经验,擅长从数据中发掘规律,对数据具有较高的敏感度,逻辑思维能力强,擅长数据可视化,机器学习、深度学习等算法原理的实现,如神经网络、SVM、决策树、贝叶斯等;负责"珠江数码大数据营销推荐应用"项目,完成标签库的构建及产品推荐模型;负责"京东电商产品评论情感分析"项目,完成了评论数据情感评价模型、LDA主题模型的构建;通过项目案例的转换;负责多个本科类院校数据分析软件培训和毕业生数据分析培训,先后负责广西科技大学、闽江学院、广东石油化工、韩山师范学院、广西师范大学等数据分析软件培训及实训等。多次负责"泰迪杯"数据挖掘大赛题目的构思和实现、赛前培训。大数据专业系列图书编写委员会成员,负责《R语言与数据挖掘》、《Python实训案例》、《Excel可视化案例》等书籍编写工作。
杨惠.jpg杨惠  广东泰迪智能科技股份有限公司高级数据分析师,从事人工智能工作多年,擅长计算机视觉和自然语言处理,熟悉常用深度学习算法原理及应用,如神经网络、SVM、强化学习等算法;精通TensorFlow、Python、MATLAB等常用数据挖掘处理工具。具有丰富的实践项目经验。如"智能聊天客服"项目,"车牌智能识别"项目,"京东电商产品评论情感分析"项目,"珠江数码大数据营销推荐应用"项目;"电子商务网站智能推荐服务"项目;"基于Seq2Seq注意力模型实现聊天机器人"项目。具备丰富的培训经验,曾为多家企业、院校服务过专业培训工作。如PPV商业培训、泰迪大数据师资培训、珠海城职院数据分析培训;2018年第一/三/五期全国高校大数据核心技术与应用师资研修班主讲讲师,2019年第一/三/五期全国高校大数据与人工智能师资研修班主讲讲师,2019年国家电网大数据竞赛河北省电力系统培训班主讲讲师。大数据专业系列图书编写委员会成员,负责《Python数据分析与应用》、《R语言编程基础》、《TensorFlow2深度学习实战》、《深度学习与计算机视觉实战》等书籍编写工作。

四、证书颁发

学员经在线培训并考试合格后,可以获得本期培训对应专题职业技术证书。

五、报名须知与联系方式

1、报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景底,14-20K大小的.JPG格式)。

2、本次由广东泰迪智能科技股份有限公司收取费用并开具发票。

3、本期研修班两专题及以上联报者可享受九折优惠。

4、报名联系方式

联系人:曾老师

电话:13246821827

微信:antonia602501

邮箱:zengaizhi@tipdm.com


全国高校大数据与人工智能师资研修班报名申请表

单位名称
部门/院系
通讯地址
发票抬头
发票内容:
纳税号
电子发票
接收邮箱:
联系人
电话:邮箱:
以下表格中要求提供的信息为申报职业技术证书使用,请真实完整填写
姓  名性别职务毕业院校最高学历手机号电子邮箱专题选择
























































费用
支付方式
1、电汇到指定账户
2、扫码支付(报名后联系工作人员索要支付码)
3、付款时请注明”大数据研修班+单位名称或姓名“字样,方便查账备案
账户信息账户名:广东泰迪智能科技股份有限公司
开户行:中国工商银行广州花城支行
账户号:3602 0285 0920 1663 221
备  注请将报名表发送至邮箱:zengaizhi@tipdm.com

联系人:曾老师   电话:13246821827    微信:antonia602501

附件二 Python网络爬虫与数据处理实战课程大纲

基础篇(报名成功后即可开始学习)
时间课程内容
学习平台
正式培训前

Python编程基础

1 准备工作

2 列表操作

3 程序流程控制语句

4 字符串操作

4.1 字符串及其索引&切片

4.2 字符串的常见方法

4.3 字典的创建及索引

4.4 字典常用操作

4.5 字典推导式

5 Python文件读取操作

5.1 Python读取文件

5.2 练习3:统计小说中的单词频次

6 函数

6.1 Python函数自定义

6.2 练习4:自定义求序列偶数个数的函数

7 面向对象与模块

7.1 Python方法与函数对比介绍

7.2 Python面向对象示例

7.3 Python模块使用

7.4 第三方库的安装与调用

8 注意事项

8.1 Python工作路径说明

8.2 模块命名及存放路径的注意事项

8.3 结语

泰迪云课堂
核心课程篇
时间课程内容学习平台
第一课 Python数据处理与可视化

7月20日

18:30 - 22:00

1 Python数据分析概述

1.1 认识数据分析

1.2 熟悉Python数据分析的工具

1.3 安装anaconda与掌握Jupyter Notebook常用功能

2 NumPy数值计算基础

2.1 掌握NumPy数组对象

2.1.1 NumPy简介

2.1.2 数组创建及基础属性

2.1.3 初识数组的特点

2.1.4 创建常用数组

2.1.5 数组数据类型

2.1.6 生成随机数

2.1.7 一维数组的索引

2.1.8 逻辑型索引

2.1.9 多维数组的索引

2.1.10 求解距离矩阵

2.1.11 变化数组shape

2.2 掌握NumPy矩阵与通用函数

2.2.1 NumPy矩阵介绍

2.2.2 NumPy通用函数介绍

2.2.3 通用函数的广播机制

2.3 利用NumPy进行统计分析

2.3.1 NumPy读写二进制文件

2.3.2 NumPy读写txt文件

2.3.3 利用NumPy对数据进行简单统计分析

3 Pandas统计分析基础

3.1 Pandas简介

3.2 读写不同数据源的数据

3.2.1 Pandas读取文本数据

3.2.2 存储数据框

3.2.3 Pandas读取Excel文件

3.2.4 将数据框存储为Excel文件

3.3 数据框与数据框元素

3.3.1 构建数据框

3.3.2 查看数据框的常用属性

3.3.3 按行列顺序访问数据框中的元素

3.3.4 按行列名称访问数据框中的元素

3.3.5 修改数据框中的元素

3.3.6 删除数据框中的元素

3.3.7 描述分析数据框中的元素

泰迪云课堂
操作演练个人PC
在线答疑微信群
第二课 Python网络爬虫:概述与静态网页采集

7月21日

18:30 - 22:00

1.1 Python网络爬虫实战介绍

1.2 认识爬虫

1.3 认识反爬虫

1.4 Python爬虫环境

2 网页前端基础

2.1 概述

2.2 HTTP请求方法与过程

2.3 常见HTTP状态码

2.4 HTTP头部信息

2.5 认识cookies

2.6 小结

3 简单静态网页爬取

3.1 静态网页爬取概述

3.2 使用urllib3实现HTTP请求

3.3 使用requests库实现HTTP请求

3.4 谷歌开发者工具介绍

3.5 正则表达式介绍

3.6 使用正则表达式获取网页标题信息

3.7 使用XPath进行网页解析

3.8 使用BeautifulSoup进行网页解析

3.9 数据存储

3.10 小结

泰迪云课堂
第二课作业个人PC
在线答疑微信群
第三课 Python网络爬虫:动态网页采集与模拟登陆

7月22日

18:30 - 22:00

4 常规动态网页爬取

4.1 常规动态网页爬取概述

4.2 逆向分析爬取动态网页

4.3 使用Selenium打开浏览器对象

4.4 Selenium页面等待

4.5 使用Selenium获取图书信息

4.6 小结

5 模拟登录

5.1 模拟登录概述

5.2 查找表单数据入口及提交数据

5.3 验证码人工处理与代理IP

5.4 使用POST请求方法登录

5.5 使用浏览器cookies登录

5.6 基于表单登录的cookies登录

5.7 小结

泰迪云课堂
第三课作业个人PC
在线答疑微信群
第四课 Python网络爬虫:终端协议分析与Scrapy爬虫

7月23日

18:30 - 22:00

6 终端协议分析

6.1 终端协议分析概述

6.2 了解HTTP Analyzer工具

6.3 爬取千千音乐PC客户端数据

6.4 小结

7 Scrapy爬虫

7.1 了解Scrapy爬虫框架

7.2 熟悉Scrapy的常用命令

7.3 创建Scrapy爬虫项目:爬取网页动态信息

7.4 修改ItemsPipelines脚本

7.5 编写spiders脚本

7.6 修改setting脚本

7.7 定制中间件

泰迪云课堂
操作演练个人PC
在线答疑微信群
第五课 数据采集与处理实战:《流浪地球》豆瓣影评采集与分析

7月24日

18: 30 - 22:00

1.1 案例背景与挖掘目标

2.1 短评数据爬取介绍

2.2 安装selenium及配置chromedriver

2.3 获取用户名

2.4 获取短评正文

2.5 设置cookies

2.6 获取用户居住地和入会时间信息

2.7 单页数据整理

2.8 自定义获取单页数据的函数

2.9 判定网页是否已被加载

2.10 翻页爬取

2.11 代码整理及小结

3.1 短评正文数据预处理

3.2 词频统计

3.3 绘制整体评论数据的词云图

3.4 好评差评词云图绘制及小结

3.5 评分分数分布统计

4.1 短评数量与日期的关系

4.2 短评数量与时刻的关系

4.3 不同评分数量与时间的关系

4.4 评论最多的前十个城市

4.5 评分数量与城市的关系

5.1 总结

泰迪云课堂
操作演练/作业个人PC
在线答疑微信群
第六课 数据采集与处理实战:《红海行动》B站弹幕采集与分析

7月25日

18:30 - 22:00

1 案例背景与挖掘目标

2 获取弹幕数据

2.1 数据采集流程与获取影片cid

2.2 发送HTTP请求

2.3 网页解析

2.4 数据保存

3 弹幕数据可视化

3.1 词云绘制

3.2 弹幕关键信息分析

4 弹幕数据分析

4.1 时间戳处理与用户发送弹幕数量分析

4.2 弹幕数量与日期、星期的关系分析

4.3 弹幕数量与时间的关系分析

4.4 弹幕数量与影片时间节点的关系分析

5.1 小结

泰迪云课堂
操作演练/作业个人PC
在线答疑微信群
第七课 数据采集与处理实战:大数据岗位人才招聘信息的分析与挖掘

7月26日

18:30 - 22:00

1.1 背景与目标

2.1 信息爬取介绍

2.2 获取岗位名称数据

2.3 获取目录页的所有字段信息

2.4 获取二级网址的网页链接

2.5 获取二级网址的所有字段信息

2.6 对单一目录页中的所有二级网页信息进行抓取

2.7 将第一个目录页的数据进行保存

2.8 批量爬取及数据保存

3.1 已爬取数据介绍

3.2 根据岗位名筛选招聘信息_batch

3.3 统一岗位名称

3.4 根据工资列筛选数据

3.5 完成工作数据处理

3.6 工作地点字段处理

3.7 公司类型字段处理

3.8 行业字段数据处理

3.9 工作描述字段处理_batch

3.10 公司规模字段处理

3.11 数据预处理小结

4.1 热门招聘岗位可视化

4.2 热门行业及公司招聘分析

4.3 热门岗位的工资水平

4.4 可视化综合分析_batch

4.5 岗位技能分析

5 总结

泰迪云课堂
操作演练/作业个人PC
在线答疑微信群
拓展自学
自行安排

Python爬虫助力疫情数据追踪

1 明确项目需求与目标

2 环境准备

3 获取疫情数据(全球、中国各省及各地区数据)

4 疫情数据分析

5 疫情数据可视化

6 完成分析报告

泰迪云课堂
第八课 在线考试

7月27日

高级Python技术应用工程师职业技术证书在线考试泰迪云课堂