python大规模数据处理技巧之一:数据常用操作_机器学习任务中,怎么只读取zarr数据其中一个chunk-CSDN博客

网站介绍:文章浏览阅读3.1w次,点赞20次,收藏116次。面对读取上G的数据,python不能像做简单代码验证那样随意,必须考虑到相应的代码的实现形式将对效率的影响。如下所示,对pandas对象的行计数实现方式不同,运行的效率差别非常大。虽然时间看起来都微不足道,但一旦运行次数达到百万级别时,其运行时间就根本不可能忽略不计了:故接下来的几个文章将会整理下渣渣在关于在大规模数据实践上遇到的一些问题,并且给予一些技巧的总结,有错误之处望指正。一、外部csv文件_机器学习任务中,怎么只读取zarr数据其中一个chunk