mongo 去重

import pymongo

client = pymongo.MongoClient()
collection=client.t.test # collection.insert({'title':'python','name':'deng','age':23}) data={'title':'go','name':'wang','age':45,'url':1}
collection.update({'url':1},{'$set':data},True)

# 上面的案例,表示如何url重复的话,url不更新,其他字典如果数据不一致就会更新。

爬虫案例:

collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True)
# coding=utf8
"""
author:dengjiyun
"""
import pymongo client=pymongo.MongoClient()
collection = client.dou.douban import requests
url='https://movie.douban.com/j/chart/top_list' params={
'type':'11',
'interval_id':'100:90',
'action':'',
'start':'60',
'limit':'20'
}
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'
} res=requests.get(url,params=params,headers=headers).json() for item in res:
data={}
# print(item['cover_url'])
data['vote_count']=item['vote_count'] # 评论
data['score']=item['score'] # 得分
data['title']=item['title'] # 电影名
data['url']=item['url'] # 详情页url
data['cover_url']=item['cover_url'] # 封面图片
data['rank'] =item['rank'] # 排名
data['id'] =item['id'] # 电影id
data['release_date']=item['release_date'] # 发布日期 print(item)
# 不插入重复数据 collection.update()
collection.update({'url':data['url'],'cover_url':data['cover_url']},{'$set':data},True)
client.close()

最新文章

  1. BOM DOM Event事件笔记....
  2. Xamarin的不归路-安卓模拟器启动慢&没有虚拟键盘
  3. jQuery.clean()方法源码分析(一)
  4. django写的留言板
  5. 互斥锁(Mutex)
  6. 5.HotSpot的算法实现
  7. 解决xcode6_beta没有代码提示的方法
  8. $.get的重写
  9. input[type=text]点击之后无边框, 一进页面就显示光标
  10. NYOJ128前缀式计算
  11. 不要怂,就是GAN (生成式对抗网络) (二)
  12. html转换为纯文本,支持撇号
  13. laravel 日志
  14. phpcms页面替换
  15. String to Integer (atoi) - 字符串转为整形,atoi 函数(Java )
  16. UWP 在Xaml中使用cu和fcu资源
  17. SSM-SpringMVC-15:SpringMVC中小论注解式开发之通配符篇
  18. python学习06
  19. this inspection detects names that should resolved but don't. Due to dynamic dispatch and duck typing, this is possible in a limited but useful number of cases. Top-level and class-level items are sup
  20. 常用的NoSQL数据库类型简述

热门文章

  1. Harry Potter and the Hide Story(hdu3988)
  2. Improved Variational Inference with Inverse Autoregressive Flow
  3. DEEP DOUBLE DESCENT: WHERE BIGGER MODELS AND MORE DATA HURT
  4. 使用 DML语句,对 “锦图网” 数据进行操作,聚合函数练习
  5. 编写Java程序,实现字符串统计和处理
  6. RSA非对称加密算法实现:C#
  7. Swoole 中使用 PDO 连接池、Redis 连接池、Mysqli 连接池
  8. python (伪)私有属性和私有方法
  9. [ flask ] flask-restful 实现嵌套的有关系的输出字段
  10. linux 三剑客(持续更新)排版后续再说,边学边记笔记