泰迪科技第五届“Python爬虫集训营”开幕通知

2018-12-26 广州泰迪智能科技 2286

分享到：

铛铛～！第一届泰迪杯的技能大赛已经完美落幕啦，亲爱的小伙伴有没有取得满意的成绩呢？在本届的泰迪杯的赛题中呢，我们放进去了爬虫这个知识点，爬虫的目的是为了进行数据的获取，而数据的获取是我们整个数据分析的基础。

下面我们聊聊学习的事：

当下最热门的行业是什么呢？大数据！

最赚钱的行业是什么呢？大数据！

那么问题来了，数据从哪里来的呢？数据获取主要有两种方式：网络数据与本地数据。网络数据是指存储在互联网中的各类视频、图片、语音和文字等信息；本地数据依赖于本地数据库中的生产、营销和财务等系统等数据，会因为企业保密机制等，不容易被我们所获取，那么网络数据恰好弥补了这一缺点，如何将海量的网络数据“偷”入我们自己的口袋，这是一个数据分析师的基本素养啦。

本期的集训营将从基础开始，手把手教大家利用python进行网络数据的获取，课程安排如下（详细课程安排表参考附件一）：

序号	程序模块	价格	前置能力	课时/天
1	Python快速入门	免费送	无
2	Python爬虫环境与简介	免费送	Python基础	1
3	前端网页基础与静态网页爬取	免费送	Python爬虫基础	1
4	Python爬虫深度学习	299	Python基础、Python爬虫基础	8

下面重点来了～～！！！

在这个元旦与春节双喜临门的大好时光～小姐姐怎么能不给你们些实实在在的福利呢！

下面四重福利，双手奉上！！！

第一重福利～～～～

好东西～就要大家一起分享！最少俩人就可以享受团购价格！！！人数越多～折扣越大！正所谓，团战靠队友、出门靠朋友，拉上你的小伙伴组团一起报名吧！

人数	折扣
俩人	9折
三人	8折
三人以上	7折

第二重福利～～～～

好东西！就要和你最爱的人分享！～咳咳～扯远了～只需要转发这条通知到朋友圈或空间等任何你常用的聊天软件～接下来就是等待好基友的点赞啦！！点赞越多～折扣越大～！

点赞数（个）	折扣
88个以上	5折
68个以上	6折
48个以上	7折
28个以上	8折
18个以上	9折

第三重福利～～～～

课程结束后，有一份回访问卷，认真填写问卷即有机会获得88元现金红包～！！

第四重福利～～～～

以上所有福利均可叠加～～～！！

福利太多，已经算晕了？

没关系～～～

来，小姐姐帮你算一下～299乘以7折乘以5折-88～～四舍五入就等于！！！

不要钱啊～～～～～～～～～不要钱啊不要钱～～

你还在等什么呢！快点呼朋唤友～奔走相告～一起来知识的海洋畅游吧！

时间安排

1.开课时间：2019年1月7日晚20:00
2.每日上课时间：20:00-21:30

支付方式：

银行账户：

户名：黄震均
开户行：建设银行广州萝岗支行
账号：6236 6833 2001 2370 920

支付宝账户：

户名：广州泰迪智能科技有限公司
账号：290676811@qq.com

报名方式

联系人：许老师 18927565259

机构网址： www.tipdm.com

附件一

序号	章	节	内容
1	Python爬虫环境与爬虫简介	1.1 认识爬虫	爬虫的概念
			爬虫的原理
			爬虫的合法性与robot.txt协议
		1.2 认识反爬虫	网站反爬虫的目的与手段
		1.2 认识反爬虫	爬取策略制定
		1.3 配置Python爬虫环境	Python爬虫相关库介绍与配置
			配置MySQL数据库
			配置MongoDB数据库
2	网页前端基础	2.1 认识Python网络编程	了解Python网络编程Socket库
			使用Socket库进行TCP编程
			使用Socket库进行UDP编程
			练习：Python上实现TCP和UDP通信
		2.2 认识HTTP协议	熟悉HTTP请求方法与过程
			熟悉常见HTTP状态码
			熟悉HTTP头部信息
			熟悉Cookie
3	简单静态网页爬取	3.1 实现HTTP请求	使用urllib 3库实现
			使用Requests库实现
			练习：实现向网站发送请求
		3.2 解析网页	使用Chrome开发者工具查看网页
			使用正则表达式解析网页
			练习：使用正则表达式解析广州泰迪智能科技公司官网标题内容
			使用xpath解析网页
			使用Beautiful Soup库解析网页
			练习：使用xpath与Beautiful Soup解析广州泰迪智能科技公司官网标题、链接以及对应文本
		3.3 数据存储	将数据存储为JSON文件
			将数据存储入MySQL数据库
			练习：将爬取的广州泰迪智能科技公司官网的文本存入mysql数据库
4	作业	作业（爬取京东网与实习网）
5	常规动态网页爬取	4.1 逆向分析爬取动态网页	了解静态网页和动态网页区别
			逆向分析爬取动态网页
			练习：爬取人民邮电出版社首页新书的信息
		4.2 使用Selenium库爬取动态网页	安装Selenium库以及下载浏览器补丁
			声明浏览对象并访问页面
			页面等待
			页面操作
			元素选取
			预期的条件
			练习：使用Selenium库对人民邮电出版社官网操作
		4.3 存储数据至MongoDB数据库	了解MongoDB数据库和MySQL数据库的区别
			将数据存储入MongoDB数据库
			练习：爬取人民邮电出版社首页新书的信息存入MongoDB数据库
6	模拟登录	5.1 使用表单登录方法实现模拟登录	查找提交入口
			查找并获取需要提交的表单数据
			使用POST请求方法登录
			练习：使用表单登录方法实现对数睿思网站模拟登陆
		5.2 使用Cookie登录方法实现模拟登录	使用浏览器Cookie登录
			基于表单登录的Cookie登录
			练习：使用Cookie登录方法实现对数睿思网站模拟登录
7	pyspider框架	6.1 pyspider框架介绍	pyspider的基本功能
		6.1 pyspider框架介绍	pyspider的架构
		6.2 pyspider的基本使用	准备工作
			创建项目
			爬取内容
			启动爬虫
8	终端协议分析	7.1 分析PC客户端抓包	了解HTTP Analyzer工具
			分析千千音乐PC客户端数据
			练习：爬取千千音乐PC客户端搜索数据
		7.2 分析APP抓包	Fiddler工具
			分析人民日报APP
			练习：爬取人民日报APP图片
9	Scrapy爬虫	8.1 认识Scarpy	了解Scrapy爬虫框架
			熟悉Scrapy常用命令
			创建Scrapy爬虫项目
			修改items/piplines脚本
		8.2 通过Scrapy爬取文本信息	编写spider脚本
			修改settings脚本
			练习：通过Scrapy爬取广州泰迪智能科技有限公司官网
		8.3 定制中间件	定制下载器中间件
		8.3 定制中间件	定制Spider中间件
10	作业	作业（爬取人民邮电出版社动态内容、爬取360图片网站图片）