如何用PYTHON做分词处理

发布网友 发布时间:2022-04-20 08:27

我来回答

1个回答

热心网友 时间:2022-04-07 12:59

可以利用python的jieba分词,得到文本中出现次数较多的词。

首先pip安装一下jieba,这个可以分词

然后用计数器Counter()统计一下得到的分词中各词的数量

最后most_common(5),是打印出排名前五位的词(包括特殊符号)

#encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
 
 
import jieba
from collections import Counter
 
str1 = open('tips.txt').read()
 
wordlist_after_jieba = jieba.cut(str1, cut_all = True)
 
list_wl = Counter(wordlist_after_jieba)
for i in list_wl.most_common(5):
    print i[0],i[1]

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
Top