爬虫爱好者喜欢的工具—Mongodb

爬虫经常面临的一个需求就是数据输出,在刚开始接触爬虫的时候,我通常都是将数据整理好后,写入txt,csv或者excel中.

后来我接触了数据库,比之前将数据写入文件中方便太多,而且更加易于管理,我总结了使用数据库进行存储的几个优点

很长一段时间,我都是使用MySQL存储管理我的爬虫数据,直到后来,我接触到了mongodb.

一瞬间,我就被mongodb这种非关系型数据库给吸引了,要知道,在使用MySQL的时候,爬虫一开始就需要考虑建表,还经常面临字段长度溢出,需求改变,时刻需要关注表结构是否需要修改等等一堆问题.

使用mongodb,更本没有这些烦烦恼,在爬到数据后进行存储,你只需要做两件事情:

将字段整理成格式化的字符串一点都不复杂,况且,有大量的爬虫是动态接口爬虫,你向一个接口地址发送请求后,这个接口地址直接向你返回一串Json字符串.

使用mongodb,可以获得这些便利:

mongodb这种存储方式,简直就是为了动态接口爬虫而生的好不好!我最近在爬取链家的租房信息,中间的爬虫过程省略了,直接展示操作mongodb的过程.

Python操作mongodb可以使用pymongo这个包,经过简单的配置后,就链接到你的mongo数据库了

你可以定义你的db(类似于MySQL中的数据库database),以及collection(类似于MySQL中的标table)

对链家的爬虫过程省略了,下图是获得爬虫数据后,将数据整理成字典格式.

这里需要注意,有的网站接口是直接返回了json字符串,更加方便.

将数据插入mongodb中,这里我添加了index,因此添加了异常处理机制.

关于Python对mongodb更丰富的操作,可以进行百度.

不论是自己组装的字典还是向接口发送请求直接得到的json字符串,实际上已经是规则的了.将数据保存在mongodb中,可以很容易看到非常规整的数据.

推荐使用IDE–ROBO 3T,这是一款开源免费的软件,非常方便.

The End

已发布

2018年8月30日

分类

标签：

评论