Contents

【excel/xlsx/xls/pandas/python】pandas读取excel速度缓慢问题

pandas读取excel速度缓慢问题

缘起

资金方面需要处理一批信息,用的是excel,读取一些列的数据去调用外部接口获取一些数据记录到新列中。

安装python环境

jetbrains带的pyCharm用了虚拟python3.10环境,发现下载pandas有点问题,就开始折腾anaconda,遂在公司很慢的网速的加持下,搞了1天,基于python3.11的Spyder弄了出来。

折腾pandas

然后因为对python的不熟悉,需要不停改逻辑重新启动再调试,
然而readexcel每次都很慢,严重影响效率。
遂研究一下原来只要吧xlsx格式转pickle格式速度可以达到指数级的快。
貌似这个格式是python特有的二进制数据格式。
遂read了一下然后直接to_pickle保存了一下。
后面用pandas的read_picke果然飞快都是0.00级别的秒,之前要6-7秒效果十分nice。
中间不管怎么折腾数据最后如果需要xls直接to_excel就搞定啦。