百度图片爬虫小助手

经常在写公众号,博客的时候需要给文章配图片。对于不是很复杂的图片,通常都是打开百度搜索关键字来获得一些图片。

百度图片搜索关键字“猫”

但这种做法会有4个问题:

  • 网页打开百度图片通常很耗时间
  • 思路会被打断,无法专注于写作本身
  • 如果有多个关键字需要搜索,需要打开一堆窗口
  • 获得感兴趣的图片后,还需要手动保存到本地才能使用

作为一名爬虫爱好者,当然不能忍受这样的情况,明明可以让爬虫来获取的图片,为什么需要我一次一次点击下一张。于是我写了个根据关键字爬取百度图片的小爬虫。

通过分析百度图片的页面,很快就编写好了爬虫程序

运行爬虫流程

  • 安装依赖:pip3 install fake_useragent
  • python baiduimage_spider.py
  • 输入关键字,用空格分开关键字,同时下载多个关键字的图片
  • 输入要爬取的页数(百度图片一页展示60张图片,但在实际爬取过程中,可能有些图片无法下载)
  • 等待爬虫运行完毕,图片默认保存在py文件所在路径

假如你正在写一篇关于猫、狗与牛的文章,你可以不打断写作的思路,直接用爬虫爬取一些图片。爬虫程序在后台工作,而你的大脑可以专心投入写作的过程中。

以下是爬虫程序运行结果

百度图片爬虫小助手同时爬取“猫”、“狗”、“牛”三个关键字的图片
根据关键字成功建立文件夹

到这为止,你已经收集了很多你想要的图片,完全不必浪费时间一张一张查看,图片都乖乖地躺在你的硬盘你等待你的挑选呢。

爬虫结果:猫
爬虫结果:狗
爬虫结果:牛

最近决心要认真写博客,记录自己的学习过程。头脑一热,就想到了这个爬虫并立马实现了它,但还不尽完美,之后有时间可以从以下几点来进行优化:

  1. 考虑版权问题
  2. 并发爬虫,提高效率
  3. 引入图片评分机制,滤除掉低质量图片

The End


已发布

分类

评论

《“百度图片爬虫小助手”》 有 6 条评论

  1. 徐诗 的头像
    徐诗

    赞一个?

    1. monk 的头像
      monk

      谢谢!

  2. 华小马 的头像
    华小马

    很好!!!加油!!!

    1. monk 的头像
      monk

      继续保持

  3. 邓乐强 的头像
    邓乐强

    加油,很实用,能把图片分辨率加进去就更好了,通常我们需要高分辨率的图片

    1. monk 的头像
      monk

      这个只能获取百度图片页面里分辨率的图片哦。你需要高分辨率是想用在什么场景?

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注