【Python数据处理】读取数据进行抽样

2020-4-2

在进行数据读取的时候，有时候遇到大文件的数据，例如几百万或者上千万的数据，这个时候直接读取文件数据，需要等待一段时间才能将数据读取出来。有没有办法只随机抽样一部分数据，然后我们快速进行数据探索，到真正的系统部署的时候，才读取所有数据进行处理。

对于这个问题，使用 Pandas 的 skiprows 和概率知识，就能实现读取数据时候进行随机抽样。

首先，我们现在有一份数据：tianchi_fresh_comp_train_user.csv

该数据来自阿里数据天池的数据。现在需要对该数据进行快速数据探索，应该怎样才是最好？

首先，我们读取全量数据，代码如下：

# 随机抽样
import pandas as pd
import numpy as np
import os
os.chdir('D:/阿里移动推荐算法/fresh_comp_offline/')
user_table = pd.read_csv('tianchi_fresh_comp_train_user.csv',engine='python',encoding ='utf-8')
print('数据行和列为: ',user_table.shape)

突然发现读取了半天，数据依然没法跑出来。

现在我又想抽样一部分数据进行探索，怎样能够快速满足我这个需求。

我们查看了一下read_csv函数，发现其 skiprows 参数能够满足我的需求，于是我写了这一段代码：

# 随机抽样
import pandas as pd
import numpy as np
import os
os.chdir('D:/阿里移动推荐算法/fresh_comp_offline/')
user_table_sample = pd.read_csv('tianchi_fresh_comp_train_user.csv',
skiprows = lambda x: x>0 and 
np.random.rand() > 0.1)
print('数据行和列为: ',user_table_sample.shape)

得到结果为：

数据行和列为: (2327275, 6)

一下子抽取了232.7万的数据，这只是里面的10%的数据量。

我们看看是哪个参数这么神奇：原来是skiprows 参数。

使用 skiprows 参数，其中里面的x > 0 确保首行读入，而np.random.rand() > 0.1 表示 90% 的数据都会被随机过滤掉。那么，只有全部数据的 10% 才有机会选入内存中。

使用这个方法，读取的数量是随机抽样的，相当于随机抽取了原来的10%，对快速进行数据分析和数据探索有很好的帮助。

好的，这个小技巧，大家学会了么？

学会的话，感觉使用一个大数据样本进行测试。

阅读剩余

THE END

原来使用Python是这样算出个人所得税的

抗击肺炎期间，数据产品经理如何提供“疫情地图”产品需求？

thumbnail

[干货]利用Python给文章自动化配图

配图，一直是个人站长的痛点，一个是图片版权问题，另一个就是图片的相关度问题。但是作为一个有前途的seo，不应该被配图所难倒。所以今天在这里给大家分享……

2021-10-30 流光啸月

0 0

thumbnail

外贸网站运营必备技能（一）：Python实现英文文案批量伪原创

伪原创，对于大多数展示型的外贸网站而言，意义并不是很大。网站的内容相对比较简单，也不需要大量的发布产品；有限的产品文案，很多公司的外贸业务员也能够……

2021-10-26 流光啸月

0 0

thumbnail

[技能升级]如何对你的网站进行访问压测

为什么要进行压力测试？对于个人站长而言，可能这方面的需求并不大，或者说很多的个人站长都不知道有这么个玩意。在中大型互联网公司，不管是做网站还是A……

2021-06-17 流光啸月

0 0

thumbnail

【自动登录】Python如何实现网站自动登录案例实战

本文为自动登录系列教程的第一篇入门篇，主要讲解一下如何用Python实现简单的自动登录网站。本次案例以zblog为例，主要模拟通过用户和密码实现登录。环境……

2021-06-17 流光啸月

0 0

thumbnail

如何建立业务数据分析指标体系？

你好，我是林骥。有位叫石墨锡的读者，在知识星球提问：如何建立业务数据分析指标体系？我觉得这是一个很好的问题，下面是我的回答，其中有些思想来源于……

2020-11-30 流光啸月

0 0

thumbnail

用Python预测2020年双十一交易额

你好，我是林骥。去年双十一的时候，我曾利用算法预测过阿里巴巴 2019 年双十一交易额，并做了复盘总结（本文结尾处有当时预测和复盘的文章链接）。今年的……

2020-11-10 流光啸月

0 0

thumbnail

用Python自动生成Excel报表

你好，我是林骥。在日常工作中，可能会有一些重复无聊的任务，比如说，从 Excel 或数据库中收集一些数据，设置相应的数据格式并做成报表。类似这种重复无……

2020-11-06 流光啸月

0 0

thumbnail

数据分析的 5 项演绎原则

你好，我是林骥。鲁迅曾经在《论辩的魂灵》中，写过这么一段话：你说甲生疮。甲是中国人，你就是说中国人生疮了。既然中国人生疮，你是中国人，就是你……

2020-11-03 流光啸月

0 0

thumbnail

逆向思维的 5 种方法

你好，我是林骥。逆向思维，是指打破正常的思维习惯，从事物的反面去思考解决问题的方法。我觉得作为数据分析师，更加需要训练和提升逆向思维的能力，从而……

2020-11-02 流光啸月

0 0

thumbnail

YouTube留言分析看美国大选

作者赵一横雷诺兹新闻研究院研究助理李金璞统计学专家王逸清机器学习工程师李昨非密苏里大学新闻学院研究生编者按 ……

2020-11-02 流光啸月

0 0