MongoDB使用起来非常方便,我在爬虫的过程中,经常利用MongoDB的索引来去重,配置好索引后,添加异常判断,当出现主键冲突就不对这条记录进行爬虫。
在pythonz代码中也可以非常方便地对MongoDB添加索引,本文提供两种方法。
import pymongo
mongo = pymongo.Connection('localhost')
collection = mongo['database']['user']
collection.ensure_index('user_name', unique=True)
上面这种方法可以为MongoDB添加唯一索引,但很多时候,我们需要多字段关联构成索引,这时就可以参考下面这种方法
import pymongo
from pymongo import ASCENDING, DESCENDING
mongo = pymongo.Connection('localhost')
collection = mongo['database']['user']
my_set.create_index([("word", DESCENDING), ("objURL", ASCENDING)], unique=True)
两种方法都可以添加unique=True,来控制索引的唯一性。
发表回复