统计文本词频并输出为Excel表格形式——Python实现!
统计文本词频并输出为Excel表格形式——Python实现!
本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。
目录
- 简单介绍两个库的使用
- 实例问题及问题分析
- Python实现
一、简单介绍两个库的使用
jieba库:中文分词库,将中文文本分解为单个词语进行处理。
jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。
jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。
jieba.lcut_for_search(s):搜索引擎模式,在词库中进行搜索并对文本进行拆分,列出所以可以组成的词语,存在冗余。
jieba.add_word(w):向分词词典添加词语。
csv库:用作对二维数据的处理存储,所生成的文件格式为.csv,这种文件格式使用常用办公软件Excel可以打开。
csv.writer(fileName):返回一个文件的writer对象。
writerow(list):写入一行到文件中。
注意:jieba库是第三方库,所以需要进行安装才能使用,使用pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 即可,后面的网址是Python第三方库的清华大学的镜像网址(这样比默认网址会快速很多)。
二、实例问题及问题分析
本次实例目的是将一个政府工作报告进行词频分析,统计出出现次数前十的词语,结果通过表格的形式呈现。
在这个问题中,我们需要对整个文本使用jieba库进行分词,分成一个一个的词语然后进行词频的统计,对于结果的呈现,我们通过二维表格的形式进行展示,这里使用到csv库。
三、Python实现
#jieba库的使用以及csv库的使用 import jieba import csv txt = open("xiXiang.txt", 'rt', encoding = 'utf-8').read() #读取所需要分析的文件内容 Excel = open("baoGao.csv", 'w', newline = '') #打开表格文件,若表格文件不存在则创建 writ = csv.writer(Excel) #创建一个csv的writer对象用于写每一行内容 writ.writerow(['名称','出现次数']) #写表格表头 words = jieba.lcut(txt) #使用jieba库对文本进行分词 counts = {} #创建一个字典,用于对词出现次数的统计,键表示词,值表示对应的次数 for word in words: if len(word) <= 1: continue else: counts[word] = counts.get(word, 0) + 1 #在字典中查询若该字返回次数加一 item = list(counts.items()) #将字典转化为列表格式 item.sort(key = lambda x: x[1], reverse = True) #对列表按照第二列进行排序 for i in range(10): writ.writerow(item[i]) #将前十名写入表格
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
学习资料见知识星球。
以上就是今天要分享的技巧,你学会了吗?若有什么问题,欢迎在下方留言。
快来试试吧,小琥 my21ke007。获取 1000个免费 Excel模板福利!
更多技巧, www.excelbook.cn
欢迎 加入 零售创新 知识星球,知识星球主要以数据分析、报告分享、数据工具讨论为主;
1、价值上万元的专业的PPT报告模板。
2、专业案例分析和解读笔记。
3、实用的Excel、Word、PPT技巧。
4、VIP讨论群,共享资源。
5、优惠的会员商品。
6、一次付费只需99元,即可下载本站文章涉及的文件和软件。
共有 0 条评论