图库网站Unsplash高清原图爬虫【华为云技术分享】

【摘要】写博客的好工具，快速获得高清图片

在百度图片爬虫小助手里，我开发了一个爬虫，来节约我写博客时搜集图片的时间。

但是，也出现了一些问题，主要有以下几点：

针对上面的几个问题，我找了一个新的图库网站Unsplash来获得图片。

Unsplash上的图片都是免费的，因此不存在水印的问题，而且，针对同一图片，还提供不同尺寸（raw,full,regular,small,thumb），就我发博客这一需求而言，regular级别的图片已经可以满足。

进入Unsplash，打开F12开发者工具抓包，输入关键字boy，试图找到相关的request，得到了这些信息

上图红色框是接口地址，蓝色框中是向这个接口发送的入参，我们再看一下这个接口返回的数据。

红色框中返回了20条数据，正好对应的向接口发送的入参per_page:20(即每页返回20张图片信息)，查看每一张图片的信息，可以看到以下内容。

红色框中正是图片的URL地址，绿色框中用了一句话对图片进行大致描述，而蓝色框中可以看出，图片根据不同尺寸分了好几种规格，这应该是方便在不同的设备之间进行显示。

由于Unplash是国外的图库网站，因此并不支持中文查询。但这可难不倒我们，在网上找了个翻译接口将中文翻译成英文，就可以解决这个问题了，我采用的是百度的翻译接口，这里就不展开讲述了。

爬虫的流程

我们看一下爬虫的结果吧！

爬虫下载的“programmer”部分图片

爬虫下载的“boy”部分图片

可以看出，下载的图片质量是非常不错的。为了加速爬虫，并节约硬盘资源，我选择下载reular级别的图片，下面我们看一下这个级别的图片在博客上展示有没有什么问题。

总的来说，Unsplash上的图片质量是比百度图库要好的，但有些特殊的词，Unsplash收录的图片数量就没有百度图库多了，有时间再将Unsplash爬虫与百度爬虫结合起来，希望我的博客在编辑速度以及美观方面能有所提升。

来源：华为云社区作者：开飞机的大象

巴特西