前言: 本文旨在介绍搭建爬虫开发环境,帮助新手安装爬虫所需的必备库:
本文所涉及内容:
python3.2以上版本自带的pip使用说明;
如何安装selenium库;
Chrome驱动的下载与调试;
配置Chrome驱动和selenium包;
安装其他爬虫工具包;
注:本文介绍内容均在 Windows 10 系统中测试,对于 Linux 系统并不适用!
- pip:
pip是一个安装和管理python包的工具,通过pip来安装python包将变得很简单,省去了繁琐的过程,pip的安装依赖于setuptools,安装pip之前需要先安装setuptools。
在python 3.2及以上版本中已经集成了pip环境,有如下两种方式可以判断自己python中是否已经集成pip:
①在 Windows 中自带的 cmd命令提示符 中输入 pip 进行验证
如上所示,即可证明已安装pip;
②在 python 根目录下的 script 路径下查看是否有 pip.exe 文件或 pip3.exe 文件
如上所示,即可证明安装pip;
若系统没有安装pip,可通过如下网站下载安装:
setuptools:https://pypi.python.org/pypi/setuptools
pip:https://pypi.python.org/pypi/pip
pip 的使用 :
在系统已经安装 pip 的情况下:
在 cmd 中直接输入命令: pip install (库名);
例: 使用 pip 安装 requests 库,只需在 cmd 中输入 : pip install requests 即可实现自动安装。
如图所示:
- 使用pip安装 selenium 库:
在上文中已经提到 pip 的使用教程,因此,只需按照安装 request 的方式,安装 selenium 库即可。
在 cmd 中输入命令 pip install selenium 。即可实现自动安装 selenium 库。
- Chrome driver:
由于如果需要使用selenium的话,需要为本机配置对应浏览器的驱动
首先要查看电脑安装的 Chrome 的版本,查看方式如下:
在图示位置输入图示内容即可查看版本信息,箭头所指向位置即当前安装版本。
chromedriver的下载地址如下:
http://chromedriver.storage.googleapis.com/index.html
在此网址中,一定要下载对应版本的Chromedriver 。
将下载好的ChromeDriver.exe文件放在Chrome的根目录下:
- 配置环境变量:
在 Windows10 中的设置搜索高级系统设置
打开之后点环境变量
双击path
将之前的浏览器根目录添加进去
配置完成。
在spyder中运行如下代码
# -*- coding: utf-8 -*-
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://www.baidu.com")
print(driver.page_source)
Chrome浏览器自动打开并显示图片红框中的内容,则成功配置驱动。
- 其他爬虫常用的包:
此名单中的包都可使用 pip 安装,安装命令仍是 pip install (名称)
lxml
beautifulsoup
pyquery
pymysql
pymongo
redis
flask
django
若在实际使用中发现缺少某个不在名单中的包,亦可使用 pip 安装。
觉得有用记得点个赞,拜拜。