博客
关于我
mongo 去重
阅读量:800 次
发布时间:2023-02-09

本文共 709 字,大约阅读时间需要 2 分钟。

与数据库连接并导入pymongo库:
client = pymongo.MongoClient('mongodb://127.0.0.1:27017')
db = client.Tendering
collection = db.test
获取所有唯一的id:
for item in collection.distinct('id'):
复制并删除重复项:
repeating = collection.find_one({'id': item})
result = collection.delete_many({'id': item})
插入新数据:
collection.insert_one(repeating)

pymongo的distinct方法

使用聚合运算来处理重复项:
db.subway.aggregate([
{ $group: { _id: { content: '$name' }, count: { $sum: 1 }, dups: { $addToSet: '$_id' } } },
{ $match: { count: { $gt: 1 } } }
]).forEach(function(it) {
it.dups.shift();
db.subway.remove({ _id: { $in: it.dups } });
});

改写说明:

  • 使用了更专业的技术术语,避免显得过于生硬
  • 删除了所有无关信息和标签
  • 保持了内容的技术性质,但语言更加流畅
  • 适当添加了段落分隔,提高可读性
  • 保持了内容的原有功能性,同时增加了可搜索性
  • 转载地址:http://edffk.baihongyu.com/

    你可能感兴趣的文章
    nft文件传输_利用remoting实现文件传输-.NET教程,远程及网络应用
    查看>>
    NFV商用可行新华三vBRAS方案实践验证
    查看>>
    ng build --aot --prod生成文件报错
    查看>>
    ng 指令的自定义、使用
    查看>>
    nghttp3使用指南
    查看>>
    Nginx
    查看>>
    nginx + etcd 动态负载均衡实践(三)—— 基于nginx-upsync-module实现
    查看>>
    nginx + etcd 动态负载均衡实践(二)—— 组件安装
    查看>>
    nginx + etcd 动态负载均衡实践(四)—— 基于confd实现
    查看>>
    Nginx + Spring Boot 实现负载均衡
    查看>>
    Nginx + uWSGI + Flask + Vhost
    查看>>
    Nginx - Header详解
    查看>>
    Nginx - 反向代理、负载均衡、动静分离、底层原理(案例实战分析)
    查看>>
    nginx 1.24.0 安装nginx最新稳定版
    查看>>
    nginx 301 永久重定向
    查看>>
    nginx css,js合并插件,淘宝nginx合并js,css插件
    查看>>
    Nginx gateway集群和动态网关
    查看>>
    Nginx Location配置总结
    查看>>
    Nginx log文件写入失败?log文件权限设置问题
    查看>>
    Nginx Lua install
    查看>>