一文详解Python中数据清洗与处理的常用方法!

一文详解Python中数据清洗与处理的常用方法!

在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下。

在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战。

本文总结了多种数据清洗与处理方法:

缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列;

 

重复值处理通过删除或标记重复项解决数据冗余问题;

异常值处理采用替换或标记方法控制数据质量;

数据类型转换确保数据格式符合分析需求,例如转换为整数或日期类型;

文本清洗包括去空格、字符替换及转换大小写等操作。

此外,还介绍了数据分组统计、数据分箱与标准化的应用。例如,分组统计可按列求均值,数据分箱能为连续变量赋予分类标签,而归一化则通过压缩数据范围提升模型表现。这些方法能有效提高数据质量与分析效率,是数据科学中不可或缺的能。

缺失值处理

删除缺失值

1
2
3
df_dropped = df.dropna()
print("\n删除缺失值后:")
print(df_dropped)

用固定值填充缺失值

1
2
3
4
5
6
7
df_filled = df.fillna({
'title': 'Unknown',
'author': 'Unknown Author',
'price': df['price'].mean()
})
print("\n填充缺失值后:")
print(df_filled)

前向填充

1
2
3
df_ffill = df.fillna(method='ffill')
print("\n前向填充缺失值后:")
print(df_ffill)

后向填充

1
2
3
df_bfill = df.fillna(method='bfill')
print("\n后向填充缺失值后:")
print(df_bfill)

删除缺失率高的列

1
2
3
df_dropped_cols = df.dropna(axis=1, thresh=len(df) * 0.5
print("\n删除缺失率高的列后:")
print(df_dropped_cols)

重复值处理

删除重复值

1
2
3
df_deduplicated = df.drop_duplicates()
print("\n删除重复值后:")
print(df_deduplicated)

标记重复值

1
2
3
df['is_duplicate'] = df.duplicated()
print("\n标记重复值后:")
print(df)

异常值处理

替换异常值

1
2
3
df['price'] = df['price'].apply(lambda x: x if 0 <= x <= 100 else df['price'].mean())
print("\n替换异常值后:")
print(df)

标记异常值

1
2
3
df['is_outlier'] = df['price'].apply(lambda x: 1 if x < 0 or x > 100 else 0)
print("\n标记异常值后:")
print(df)

数据类型转换

转换为整数类型

1
2
3
df['price'] = df['price'].astype(int)
print("\n转换为整数后:")
print(df)

转换为日期类型

1
2
3
df['date'] = pd.to_datetime(df['date'], errors='coerce')
print("\n转换为日期类型后:")
print(df)

文本清洗

去掉两端空格

1
2
3
df['title'] = df['title'].str.strip()
print("\n去掉两端空格后:")
print(df)

替换特定字符

1
2
3
df['title'] = df['title'].str.replace('[^a-zA-Z0-9\s]', '', regex=True)
print("\n替换特定字符后:")
print(df)

转换为小写

1
2
3
df['title'] = df['title'].str.lower()
print("\n转换为小写后:")
print(df)

数据分组统计

按列分组求均值

1
2
3
grouped = df.groupby('author')['price'].mean()
print("\n按作者分组的平均价格:")
print(grouped)

数据分箱

按价格分箱

1
2
3
4
5
bins = [0, 10, 20, 30]
labels = ['低', '中', '高']
df['price_level'] = pd.cut(df['price'], bins=bins, labels=labels, right=False)
print("\n按价格分箱后:")
print(df)

数据标准化

归一化处理

1
2
3
4
5
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['price_scaled'] = scaler.fit_transform(df[['price']])
print("\n归一化后的数据:")
print(df)

到此这篇关于一文详解Python中数据清洗与处理的常用方法的文章就介绍到这了。

 

 

学习资料见知识星球。

以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。

快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利​​​​!

更多技巧, www.excelbook.cn

欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;

Excelbook.cn Excel技巧 SQL技巧 Python 学习!

你将获得:

1、价值上万元的专业的PPT报告模板。

2、专业案例分析和解读笔记。

3、实用的Excel、Word、PPT技巧。

4、VIP讨论群,共享资源。

5、优惠的会员商品。

6、一次付费只需129元,即可下载本站文章涉及的文件和软件。

文章版权声明 1、本网站名称:Excelbook
2、本站永久网址:http://www.excelbook.cn
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长王小琥进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报。
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

THE END
分享
二维码
< <上一篇
下一篇>>