Python统计不同整数的出现次数的三种方法!

Python统计不同整数的出现次数的三种方法!

作者:傻啦嘿哟
在数据处理和分析领域,统计不同整数的出现次数是一个常见需求,无论是清洗日志数据、分析用户行为,还是处理实验观测值,我们都需要快速准确地获取不同整数的数量,本文将用通俗的语言,结合Python代码示例,为你系统讲解三种主流解决方案,需要的朋友可以参考下。

一、问题定义:什么是"不同整数的计数"?

假设有一个包含重复整数的列表:[1, 2, 3, 4, 2, 3, 4, 5],我们需要统计其中有多少个不重复的整数。答案显然是5个(1,2,3,4,5)。

这个问题看似简单,但实际应用中常伴随复杂场景:

  • 数据量庞大(百万级甚至亿级)
  • 需要实时统计
  • 内存资源有限
  • 需要同时获取出现次数

二、解决方案一:集合去重法(适合基础场景)

核心思路:利用集合(Set)元素的唯一性自动去重。

1
2
3
4
my_list = [1, 2, 3, 4, 2, 3, 4, 5]
unique_values = set(my_list)  # 转换为集合
count = len(unique_values)    # 获取集合长度
print(count)  # 输出:5

原理说明:

  • set()函数将列表转换为集合,自动过滤重复元素
  • 集合的查找时间复杂度为O(1),适合快速判断元素存在性
  • 最终通过len()函数获取集合大小,即不同整数数量

性能特点:

  • 时间复杂度:O(n)(转换集合)
  • 空间复杂度:O(n)(存储唯一值)
  • 优点:代码简洁,执行速度快
  • 缺点:无法获取具体出现次数

三、解决方案二:字典计数法(适合需要频次的场景)

核心思路:用字典存储每个整数的出现次数,最后统计字典键的数量。

1
2
3
4
5
6
7
8
my_list = [1, 2, 3, 4, 2, 3, 4, 5]
count_dict = {}
for num in my_list:
count_dict[num] = count_dict.get(num, 0) + 1  # 存在则+1,否则初始化为1
count = len(count_dict)
print(count)  # 输出:5

原理说明:

  • 遍历列表时,用get()方法安全获取当前计数值
  • count_dict.get(num, 0)表示:若num存在则返回计数值,否则返回0
  • 最终通过字典的键数量获取不同整数数量

扩展应用:

  • 获取具体出现次数:print(count_dict) 输出{1:1, 2:2, 3:2, 4:2, 5:1}
  • 查找最频繁整数:max(count_dict, key=count_dict.get)

性能特点:

  • 时间复杂度:O(n)(单次遍历)
  • 空间复杂度:O(n)(存储所有键值对)
  • 优点:可获取详细频次信息
  • 缺点:相比集合法需要额外存储空间

四、解决方案三:collections.Counter(专业统计工具)

核心思路:使用Python标准库中的Counter类,专为计数设计。

1
2
3
4
5
6
from collections import Counter
my_list = [1, 2, 3, 4, 2, 3, 4, 5]
counter = Counter(my_list)  # 自动统计频次
count = len(counter)        # 获取唯一值数量
print(count)  # 输出:5

进阶用法:

1
2
3
4
5
6
7
# 获取出现次数最多的3个整数
print(counter.most_common(3))  # 输出:[(2, 2), (3, 2), (4, 2)]
# 数学运算(支持加减交并集)
counter2 = Counter([5,6,6,7])
print(counter + counter2)  # 合并统计
print(counter & counter2)  # 交集统计

性能特点:

  • 时间复杂度:O(n)(与字典法相当)
  • 空间复杂度:O(n)
  • 优点:内置丰富统计方法,代码最简洁
  • 缺点:需要导入标准库

五、性能对比与选型建议

方法 时间复杂度 空间复杂度 适用场景
集合去重法 O(n) O(n) 仅需简单计数
字典计数法 O(n) O(n) 需要频次信息的中小型数据
Counter类 O(n) O(n) 需要复杂统计的大型数据

选型建议:

  • 数据量小且无需频次信息 → 集合去重法
  • 需要频次但数据量中等 → 字典计数法
  • 专业数据分析/大数据场景 → collections.Counter

六、实战案例:日志分析中的IP统计

需求:统计服务器日志中不同IP的访问次数,找出访问最频繁的10个IP。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from collections import Counter
# 模拟日志数据(每行包含IP地址)
log_lines = [
"192.168.1.1 - - [timestamp] \"GET / HTTP/1.1\"",
"10.0.0.5 - - [timestamp] \"POST /api\"",
"192.168.1.1 - - [timestamp] \"GET /css/style.css\"",
# ...(百万级日志数据)
]
# 提取IP地址
ips = [line.split()[0] for line in log_lines]
# 统计并输出结果
ip_counter = Counter(ips)
print("不同IP数量:", len(ip_counter))
print("Top10 IP:", ip_counter.most_common(10))

代码解释:

  • 使用列表推导式高效提取IP地址
  • Counter自动处理百万级数据统计
  • most_common(10)直接获取高频IP

七、总结:智能时代的计数利器

不同整数的计数问题看似简单,实则蕴含多种解决方案。在Python生态中:

  • 集合提供了最基础的去重能力
  • 字典实现了频次统计的基础需求
  • collections.Counter则是专业级统计工具

随着数据规模的增长,合理选择数据结构变得尤为重要。对于智能时代的开发者而言,掌握这些计数方法,就如同拥有了精准的数字显微镜,能够高效洞察数据背后的规律。

以上就是Python统计不同整数的出现次数的三种方法的详细内容。

 

学习资料见知识星球。

以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。

快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利​​​​!

更多技巧, www.excelbook.cn

欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;

Excelbook.cn Excel技巧 SQL技巧 Python 学习!

你将获得:

1、价值上万元的专业的PPT报告模板。

2、专业案例分析和解读笔记。

3、实用的Excel、Word、PPT技巧。

4、VIP讨论群,共享资源。

5、优惠的会员商品。

6、一次付费只需129元,即可下载本站文章涉及的文件和软件。

文章版权声明 1、本网站名称:Excelbook
2、本站永久网址:http://www.excelbook.cn
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长王小琥进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报。
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

THE END
分享
二维码
< <上一篇
下一篇>>