30 分钟编写一个抓取 Unsplash 图片的 Python 爬虫

来源： SDK.cn 类型：技术文章发布：2018-03-06 15:02:27

我一直想用 Python and Selenium 创建一个网页爬虫，但从来没有实现它。几天前，我决定尝试一下，这听起来可能是挺复杂的，然而编写代码从 Unsplash抓取一些美丽的图片还是挺容易的.

简易图片爬虫的组成部分

Python (3.6.3 或者更新版本)
Pycharm (Community edition 版本就可以)
requests
Pillow
selenium
geckodriver (阅读下面的说明)
Mozlla Firefox (如果你没有，去安装一下)
有效的网络连接 (显而易见的)
你的30分钟 (可能更少)

简易图片爬虫的制作

把所有东西都安装好了么? 不错! 跟着我们的代码，我将开始解释我们每一个爬虫原料的作用。

第一件事情，我们将把 Selenium webdriver 和 geckodriver 结合起来去打开一个为我们工作的浏览器窗口。首先, 在Pycharm里创建一个项目, 根据你的系统下载最新的geckodriver ，打开下载的压缩文件然后把geckodriver文件放到你的项目文件夹里。 Geckodriver 是 Selenium 控制 Firefox的基础，因此我们需要把它放到我们项目的文件夹里面，来让我们能使用浏览器。

接下来我们要做的就是在代码中导入Selenium的webdriver并且连接我们想要连接的URL，所以让我们这样做吧：


from selenium import webdriver
# 你想打开的url地址
url = "https://unsplash.com"
# 用Selenium的webdriver去打开页面
driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

一个远程控制的Firefox窗口

很简单，是吧？如果你每一步都操作正确，你已经度过了困难的一部分，你应该看到和上面展示图片类似的浏览器窗口。

接下来, 我们应该下滑页面，这样在我们下载图片之前可以加载更多的图片。我们还需要等待几秒钟，以防万一网络连接缓慢，图片加载不全。由于Unsplash 是基于React构建的，等待5秒钟似乎是合适的时间，因此我们使用time包来进行等待的操作。我们还需要使用一些Javascript代码来滚动页面
--- 我们将使用window.scrollTo() 来完成这个。把它们放到一起，你应该得到这样的代码：

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)
# 滚动页面，然后等待5秒
driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)

滚动页面，然后等待5秒

在测试上面的代码后，你应该看到浏览器向下滚动一些，下一件我们需要做的事情是在网页上找到那些我们想要下载的图片。在解析recat生成代码后，我发现我们能用CSS选择器在页面代码里面定位我们想要的图片。也许页面具体的布局和代码在未来可能会改变，但是在我写代码的这个时候我们可以用 #gridMulti img 选择器来获取所有出现在屏幕里面的 <img> 标签元素

我们能用 find_elements_by_css_selector()得到这些标签元素的list集合，但是我们想要的却是是每个标签元素的src 的属性。所以，我们可以遍历list集合然后抓取它们:

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
# 选择图片标签元素，打印它们的URL
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    print(image_url)

选择图片标签元素，打印它们的URL

现在，为了真正得到我们找到的图片，我们将使用requests 包和一部分 PIL包，即 Image。我们还需要使用io包里面的BytesIO 来把图片写入一个 ./images/的文件夹，我们要在我们的项目文件夹里面创建这个文件。这样, 把所有东西组合在一起,我们需要给每个图片的URL发送一个HTTP的GET请求，然后使用Image 和BytesIO，我们可以在我们得到的响应里面存储图片，这里是一个方法来实现这一步骤：

unscrape.py

import requests
import time
from selenium import webdriver
from PIL import Image
from io import BytesIO

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
i = 0

for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    # 发送一个HTTP的GET请求，在响应里面获取并存储图片
    image_object = requests.get(image_url)
    image = Image.open(BytesIO(image_object.content))
    image.save("./images/image" + str(i) + "." + image.format, image.format)
    i += 1

下载图片

下载一大堆免费的图片几乎是你的所有需求了。显而易见的, 除非你想设计图片原型或者仅仅需要得到随机的图片，这个小爬虫是没有多大用处的。因此，我花了一些时间，通过增加了更多的特性来提升它：

允许用户使用命令行参数来指定搜索查询的内容，同时使用滚动数值参数，这样允许页面为下载展示更多的图片。
可定制化的CSS 选择器。
根据搜索查询定制结果的文件夹。
根据需要裁剪缩略图的网址以获得全高清图像。
基于图片的URL给图片命名。
在程序结束后关闭浏览器窗口。

你可以(也可能应该)尝试自己去实现其中的一些功能。可用的完整版的网页爬虫这里. 记得去单独下载geckodriver并将其连接到你的项目，就像文章开头说明的那样。

限制, 思考和未来的改进

这个整体项目都是一个非常简单的概念验证，来看看网页爬虫是怎么实现完成的，意味着有很多事情可以做，来改善这个小工具：

没有记录这些图片的原始上传者是一个很不好的主意，Selenium是绝对有能力来做这些事情的，所以让每个图片都带着作者的名字。
Geckodriver不应该被放置在项目的文件夹内，而更应该全局安装，并成为PATH系统环境变量的一部分。
搜索功能很容易地扩展到包括多个查询，从而可以简化下载大量图片的过程。
默认的浏览器可以从Firefox 变成Chrome或者甚至PhantomJS 对这类项目来说会好很多。

原文来自:PythonCaff

声明：所有来源为“聚合数据”的内容信息，未经本网许可，不得转载！如对内容有异议或投诉，请与我们联系。邮箱：marketing@think-land.com

API百科

生活服务企业工商金融科技接口大全电子商务

API资讯