一文详解Python中数据清洗与处理的常用方法!
一文详解Python中数据清洗与处理的常用方法!
在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下。
在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战。
本文总结了多种数据清洗与处理方法:
缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列;
重复值处理通过删除或标记重复项解决数据冗余问题;
异常值处理采用替换或标记方法控制数据质量;
数据类型转换确保数据格式符合分析需求,例如转换为整数或日期类型;
文本清洗包括去空格、字符替换及转换大小写等操作。
此外,还介绍了数据分组统计、数据分箱与标准化的应用。例如,分组统计可按列求均值,数据分箱能为连续变量赋予分类标签,而归一化则通过压缩数据范围提升模型表现。这些方法能有效提高数据质量与分析效率,是数据科学中不可或缺的能。
缺失值处理
删除缺失值
1
2
3
|
df_dropped = df.dropna() print ( "\n删除缺失值后:" ) print (df_dropped) |
用固定值填充缺失值
1
2
3
4
5
6
7
|
df_filled = df.fillna({ 'title' : 'Unknown' , 'author' : 'Unknown Author' , 'price' : df[ 'price' ].mean() }) print ( "\n填充缺失值后:" ) print (df_filled) |
前向填充
1
2
3
|
df_ffill = df.fillna(method = 'ffill' ) print ( "\n前向填充缺失值后:" ) print (df_ffill) |
后向填充
1
2
3
|
df_bfill = df.fillna(method = 'bfill' ) print ( "\n后向填充缺失值后:" ) print (df_bfill) |
删除缺失率高的列
1
2
3
|
df_dropped_cols = df.dropna(axis = 1 , thresh = len (df) * 0.5 ) print ( "\n删除缺失率高的列后:" ) print (df_dropped_cols) |
重复值处理
删除重复值
1
2
3
|
df_deduplicated = df.drop_duplicates() print ( "\n删除重复值后:" ) print (df_deduplicated) |
标记重复值
1
2
3
|
df[ 'is_duplicate' ] = df.duplicated() print ( "\n标记重复值后:" ) print (df) |
异常值处理
替换异常值
1
2
3
|
df[ 'price' ] = df[ 'price' ]. apply ( lambda x: x if 0 < = x < = 100 else df[ 'price' ].mean()) print ( "\n替换异常值后:" ) print (df) |
标记异常值
1
2
3
|
df[ 'is_outlier' ] = df[ 'price' ]. apply ( lambda x: 1 if x < 0 or x > 100 else 0 ) print ( "\n标记异常值后:" ) print (df) |
数据类型转换
转换为整数类型
1
2
3
|
df[ 'price' ] = df[ 'price' ].astype( int ) print ( "\n转换为整数后:" ) print (df) |
转换为日期类型
1
2
3
|
df[ 'date' ] = pd.to_datetime(df[ 'date' ], errors = 'coerce' ) print ( "\n转换为日期类型后:" ) print (df) |
文本清洗
去掉两端空格
1
2
3
|
df[ 'title' ] = df[ 'title' ]. str .strip() print ( "\n去掉两端空格后:" ) print (df) |
替换特定字符
1
2
3
|
df[ 'title' ] = df[ 'title' ]. str .replace( '[^a-zA-Z0-9\s]' , '', regex = True ) print ( "\n替换特定字符后:" ) print (df) |
转换为小写
1
2
3
|
df[ 'title' ] = df[ 'title' ]. str .lower() print ( "\n转换为小写后:" ) print (df) |
数据分组统计
按列分组求均值
1
2
3
|
grouped = df.groupby( 'author' )[ 'price' ].mean() print ( "\n按作者分组的平均价格:" ) print (grouped) |
数据分箱
按价格分箱
1
2
3
4
5
|
bins = [ 0 , 10 , 20 , 30 ] labels = [ '低' , '中' , '高' ] df[ 'price_level' ] = pd.cut(df[ 'price' ], bins = bins, labels = labels, right = False ) print ( "\n按价格分箱后:" ) print (df) |
数据标准化
归一化处理
1
2
3
4
5
|
from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df[ 'price_scaled' ] = scaler.fit_transform(df[[ 'price' ]]) print ( "\n归一化后的数据:" ) print (df) |
到此这篇关于一文详解Python中数据清洗与处理的常用方法的文章就介绍到这了。
学习资料见知识星球。
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利!
更多技巧, www.excelbook.cn
欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;
1、价值上万元的专业的PPT报告模板。
2、专业案例分析和解读笔记。
3、实用的Excel、Word、PPT技巧。
4、VIP讨论群,共享资源。
5、优惠的会员商品。
6、一次付费只需129元,即可下载本站文章涉及的文件和软件。
共有 0 条评论