详解Python数据分析--Pandas知识点
本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.主要原因可以分为两种: 人为原因和机械原因.1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均
用户评论