课程简介
本教程结合大量典型的爬虫实例和详细的代码解析,引导学员逐步认识、理解、掌握python爬虫,教程中还会介绍一些爬虫的进阶知识,目标是帮助学员在学完后能胜任编写大型爬虫的任务。
目标收益
本教程的特点是通俗易懂的配合具体实例讲解各种库和框架的使用。
培训对象
课程大纲
第一部分 爬虫基础 三个半小时 第一章 网络爬虫概述 |
1.1什么是网络爬虫 1.2Python网络爬虫的技术概况 1.3开发环境的搭建 |
第二章 requests库入门 |
2.1 requests库的安装 2.2 requests库的基本用法 2.3 HTTP协议简介 |
第三章 xapth语法详解 |
3.1 lxml库的安装和导入 3.2 xpath语法实例详解 3.3 使用chrome浏览器开发者工具 3.4 实例——爬取百度首页并提取信息 |
第四章 实例——爬取Q房网二手房小区信息 |
4.1 Q房网小区栏目结构分析 4.2 编写Q房网爬虫代码 4.3 下载小区图片 4.4 编写多线程爬虫 |
第五章 认识和应对反爬虫 |
5.1 网站反爬虫的措施 5.2 设置IP代理 5.3反反爬虫策略总结 |
第六章 模拟登录和验证码的处理 |
6.1 豆瓣网站登录页面分析 6.2 编写代码模拟登录 6.3 验证码的处理策略 6.4 使用cookies登录 |
第七章 动态页面的分析方法 |
7.1 认识动态页面 7.2 动态页面的分析和信息提取 7.3 selenium库的安装和基本用法 7.4 Headless Chrome入门 |
第八章 selenium实例——爬取新浪微博 |
8.1 新浪微博登录机制 8.2 登录新浪微博 8.3 分析并爬取新浪微博 |
第一部分 练习——下载微信文章 半小时 |
9.1 微信文节的下载分析 9.2 编写微信文节爬虫 |
第二部分 scrapy爬虫框架 三个半小时 第十章 scrapy框架基础 |
10.1 安装scrapy框架 10.2 scrapy的目录结构 10.3 scrapy常用命令 |
第十一章 实例——爬取我爱我家二手房数据 |
11.1 我爱我家网站分析 11.2 编写spider爬虫 11.3 爬取深层网页 11.4 scrapy框架结构解析 |
第十二章 应对反爬虫策略 |
12.1 应对反爬虫的设置 12.2 设置用户代理 12.3 设置IP代理 12.4 scrapy反反爬虫策略总结 |
第十三章 scrapy数据存储 |
13.1 数据的快捷存储 13.2 使用pipeline存储数据 13.3 存储数据到Mysql数据库 13.3.1 Mysql数据库的安装 13.3.2 pymysql的安装和使用 13.3.2 存储数据到Mysql 13.4 更适应爬虫的MongoDB数据库 13.4.1 MongoDB的安装 13.4.2 MongoDB的可视化 13.4.3PyMongo的安装和用法 13.4.4 存储数据到MongoDB |
第十四章 提交数据和保持登录 |
14.1 FormRequest登录豆瓣网站 14.2 使用cookies登录豆瓣网站 14.3 实例——爬取Q房网二手房数据 |
第十五章 crawlspider模板 |
15.1 crawlspider模板的特点 15.2 crawlspider实例——爬取链家二手房出售数据 |
第十六章 图片下载和文件下载 |
16.1 scrapy中配置图片下载和文件下载 16.2 图片下载实例——下载链家二手房图片 |
第二部分 练习————爬取链家经纪人成交数据 半小时 |
17.1 链家手机网站结构分析 17.2 多层网页和动态网页的爬取规划 17.3 爬虫的具体实现 |
第三部分 Scrapy进阶 三个半小时 第十八章 分布式爬虫 |
18.1 Redis的安装与配置 18.2 scrapy_redis的安装 18.3 在scrapy中配置Redis |
第十九章 增量式爬虫 |
19.1 scrapy去重方案分析 19.2 缓存数据库去重——使用Redis去重 19.3 在scrapy中配置BloomFilter高效去重 |
第二十章 实例——爬取知乎用户关注关系数据 |
20.1 知乎网站结构分析 20.2 知乎动态网页的特点 20.3 使用scrapy配合selenium的爬虫实现 |
第三部分 练习使用scrapy和正则表达式实现知乎爬虫 半小时 |
练习使用scrapy和正则表达式实现知乎爬虫 |
第一部分 爬虫基础 三个半小时 第一章 网络爬虫概述 1.1什么是网络爬虫 1.2Python网络爬虫的技术概况 1.3开发环境的搭建 |
第二章 requests库入门 2.1 requests库的安装 2.2 requests库的基本用法 2.3 HTTP协议简介 |
第三章 xapth语法详解 3.1 lxml库的安装和导入 3.2 xpath语法实例详解 3.3 使用chrome浏览器开发者工具 3.4 实例——爬取百度首页并提取信息 |
第四章 实例——爬取Q房网二手房小区信息 4.1 Q房网小区栏目结构分析 4.2 编写Q房网爬虫代码 4.3 下载小区图片 4.4 编写多线程爬虫 |
第五章 认识和应对反爬虫 5.1 网站反爬虫的措施 5.2 设置IP代理 5.3反反爬虫策略总结 |
第六章 模拟登录和验证码的处理 6.1 豆瓣网站登录页面分析 6.2 编写代码模拟登录 6.3 验证码的处理策略 6.4 使用cookies登录 |
第七章 动态页面的分析方法 7.1 认识动态页面 7.2 动态页面的分析和信息提取 7.3 selenium库的安装和基本用法 7.4 Headless Chrome入门 |
第八章 selenium实例——爬取新浪微博 8.1 新浪微博登录机制 8.2 登录新浪微博 8.3 分析并爬取新浪微博 |
第一部分 练习——下载微信文章 半小时 9.1 微信文节的下载分析 9.2 编写微信文节爬虫 |
第二部分 scrapy爬虫框架 三个半小时 第十章 scrapy框架基础 10.1 安装scrapy框架 10.2 scrapy的目录结构 10.3 scrapy常用命令 |
第十一章 实例——爬取我爱我家二手房数据 11.1 我爱我家网站分析 11.2 编写spider爬虫 11.3 爬取深层网页 11.4 scrapy框架结构解析 |
第十二章 应对反爬虫策略 12.1 应对反爬虫的设置 12.2 设置用户代理 12.3 设置IP代理 12.4 scrapy反反爬虫策略总结 |
第十三章 scrapy数据存储 13.1 数据的快捷存储 13.2 使用pipeline存储数据 13.3 存储数据到Mysql数据库 13.3.1 Mysql数据库的安装 13.3.2 pymysql的安装和使用 13.3.2 存储数据到Mysql 13.4 更适应爬虫的MongoDB数据库 13.4.1 MongoDB的安装 13.4.2 MongoDB的可视化 13.4.3PyMongo的安装和用法 13.4.4 存储数据到MongoDB |
第十四章 提交数据和保持登录 14.1 FormRequest登录豆瓣网站 14.2 使用cookies登录豆瓣网站 14.3 实例——爬取Q房网二手房数据 |
第十五章 crawlspider模板 15.1 crawlspider模板的特点 15.2 crawlspider实例——爬取链家二手房出售数据 |
第十六章 图片下载和文件下载 16.1 scrapy中配置图片下载和文件下载 16.2 图片下载实例——下载链家二手房图片 |
第二部分 练习————爬取链家经纪人成交数据 半小时 17.1 链家手机网站结构分析 17.2 多层网页和动态网页的爬取规划 17.3 爬虫的具体实现 |
第三部分 Scrapy进阶 三个半小时 第十八章 分布式爬虫 18.1 Redis的安装与配置 18.2 scrapy_redis的安装 18.3 在scrapy中配置Redis |
第十九章 增量式爬虫 19.1 scrapy去重方案分析 19.2 缓存数据库去重——使用Redis去重 19.3 在scrapy中配置BloomFilter高效去重 |
第二十章 实例——爬取知乎用户关注关系数据 20.1 知乎网站结构分析 20.2 知乎动态网页的特点 20.3 使用scrapy配合selenium的爬虫实现 |
第三部分 练习使用scrapy和正则表达式实现知乎爬虫 半小时 练习使用scrapy和正则表达式实现知乎爬虫 |