python读取mongodb数据，并转成pandas的dataframe - 代码天地

python读取mongodb数据，并转成pandas的dataframe

其他 2021-03-22 10:24:53 阅读次数: 0

import asyncio
from motor.motor_asyncio import AsyncIOMotorClient
import pandas as pd
import nest_asyncio
nest_asyncio.apply()

def client_database(address,port,database):
    client = AsyncIOMotorClient(address,port)
    db = client[database]
    return db

async def do_find(db,collection):
    cursor = db[collection].find()
    count = []
    async for document in cursor:
        print(list(document.keys()))
        count.append(document)
    dataframe = pd.DataFrame(count)
    dataframe.set_index('_id',inplace=True)
    dataframe.to_csv('dataframe.csv') #保存CSV
    return dataframe

if __name__ == '__main__':
    address = '127.0.0.1' #地址
    port = 27017 #端口
    database = 'MachineLearning' #数据库名字
    collection = 'Movie' #集合名字
    db = client_database(address, port, database)
    loop = asyncio.get_event_loop()
    dataframe = loop.run_until_complete(do_find(db, collection))

我觉得在字典数据转成dataframe，这一点上，应该有很大的优化空间。

方法1：把多个字典转成pandas的dataframe的时候，是一直读取字典数据，把字典全部添加到列表里面然后转成dataframe比较好？【数据量大时候在考虑列表内存会不会溢出呢？】

方法2：还是直接定义一个空字典，把然后把读取到字典转成dataframe，一直读一直拼接到空字典上面，还是这种比较好？【频繁的创建和转换与拼接、也许更加耗IO？】

方法3：在方法1基础上，是否存在比列表更好的数据结构？或者说给列表设置上限、到达上限之后缓存一下然后多次操作之后把多个列表转成array再组合然后转成dataframe（或者不转成array直接转成dataframe?）？

猜你喜欢

转载自blog.csdn.net/qq_42658739/article/details/104595742

python读取mongodb数据，并转成pandas的dataframe

python实现oracle数据库连接并转成dataframe

python读入txt数据，并转成矩阵

python中，用pyspark读取Hbase数据，并转换为dataframe格式

Python3学习（三十五）：python从mongo中取数据，使用pandas.DataFrame进行列操作并转字典

Python 用pandas逐行读取DataFrame

【pandas】Python读取DataFrame的某行或某列

将pandas中的DataFrame和Series转成python中的list

python--从字典中提取子字典并转成DataFrame的方法

pandas将Series转成DataFrame

python 读取excel 数据，并转为dict

11.6 hdfs读取json数据，转成DataFrame保存到hdfs

python用pandas库读取excel中的文件存入DataFrame数据帧中

[ python ] pandas学习笔记（一）读取与数据结构DataFrame&Series

Python读取MongoDB数据

pandas读取数据库数据，设置为dataframe

Python数据分析库pandas ------ DataFrame

Python数据分析-Pandas（Series与DataFrame）

python pandas 之 Dataframe 数据结构

python pandas dataframe数据选择与定位

Python pandas dataframe 数据类型转换

python，pandas， DataFrame数据获取方式

python-pandas-dataframe-数据选择

PYTHON Pandas批量读取csv文件到DATAFRAME

python-pandas读取mongodb、读取csv文件

吴裕雄--天生自然python学习笔记：pandas模块用 dataframe.loc 通过行、列标题读取数据

Python之pandas的DataFrame

Python pandas DataFrame

Python pandas DataFrame操作

python pandas dataframe绘图

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)