Python 获取词频的百分比

Python 获取词频的百分比

在本文中,我们将学习如何在Python中获取词频的百分比。

假设我们有一个输入字符串列表。我们现在将找到给定输入字符串列表中每个单词的百分比。

公式

(Occurrence of X word / Total words) * 100

使用的方法

  • 使用sum(),Counter(),join()和split()函数

  • 使用join(),split()和count()函数

  • 使用operator模块中的countOf()函数。

方法1:使用sum(),Counter(),join()和split()函数

join() 是Python中的一个字符串函数,用于将由字符串分隔符分隔的序列元素连接在一起。此函数将序列元素连接形成一个字符串。

Counter() 函数是一个子类,用于计算可哈希对象的数量。当调用/调用时,它会隐式地创建一个可迭代对象的哈希表。

步骤

以下是执行所需任务的算法/步骤 -。

  • 使用import关键字从collections模块导入Counter函数。

  • 创建一个变量来存储字符串的输入列表,并打印该列表。

  • 使用join()函数将输入列表的所有字符串元素连接起来。

  • 使用split()函数(将字符串分割成列表。我们可以定义分隔符;默认分隔符是任何空白字符)将连接的字符串拆分成单词列表,并使用Counter()函数将单词的频率作为键值对获取。

  • 使用values()函数从Counter中获取所有值(频率/计数),并使用sum()函数获取它们的总和(返回可迭代对象中所有项的总和)。

  • 使用items()函数从上述计数器单词中获取每个单词的百分比(返回一个视图对象,即以列表中的元组形式包含字典的键值对)。

  • 打印输入列表中每个单词的百分比。

示例

以下程序使用sum(),Counter(),join()和split()函数返回给定字符串输入列表中每个单词的百分比 –

# importing a Counter function from the collections module
from collections import Counter

# input list of strings
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]
print("Input list:\n", inputList)

# Joining all the string elements of the list using the join() function
join_string = " ".join(i for i in inputList)

# splitting the joined string into a list of words and getting the

# frequency of words as key-value pairs using Counter() function

counter_words = Counter(join_string.split())
# getting all the values(frequencies/counts) from counter and

# finding the total sum of them
total_sum = sum(counter_words.values())

# getting the percentage of each word from the above counter words
res_percentage = {key: value / total_sum for key,
value in counter_words.items()}

# printing the percentage of each word from the input list
print("Percentage of each word from the input list:\n", res_percentage)

输出

在执行上述程序时,将生成以下输出结果 –

Input list:
['hello tutorialspoint', 'python codes', 'tutorialspoint for python', 'see python codes tutorialspoint']
Percentage of each word from the input list:
{'hello': 0.09090909090909091, 'tutorialspoint': 0.2727272727272727, 'python': 0.2727272727272727, 'codes': 0.18181818181818182, 'for': 0.09090909090909091, 'see': 0.09090909090909091}

方法2:使用join()、split()和count()函数

步骤

下面是执行所需任务的算法/步骤:

  • 创建一个空字典,用于存储结果百分比/单词频率。

  • 使用 for循环 遍历单词列表。

  • 使用 if条件 语句,使用 keys() 函数检查当前元素是否不在字典的键中。

  • 如果上述条件为真,则使用count()函数获取此键(单词)的计数。

  • 将其除以单词数,以获取当前单词频率,并将其作为键存储在上述新创建的字典中。

  • 打印输入列表中每个单词的百分比。

示例

以下程序使用join()、split()和count()函数返回给定输入字符串列表中每个单词的百分比:

# input list of strings
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]

# joining all the elements of the list using join()
join_string = " ".join(i for i in inputList)

# splitting the joined string into a list of words
listOfWords = join_string.split()

# Creating an empty dictionary for storing the resultant percentages
resDict = dict()

# traversing through the list of words
for item in listOfWords:

   # checking whether the current element is not in the keys of a dictionary
   if item not in resDict.keys():

      # getting the percentage of a current word if the condition is true
      resDict[item] = listOfWords.count(item)/len(listOfWords)

# printing the percentage of each word from the input list
print("Percentage of each word from the input list:\n", resDict)

输出:

执行上述程序后,将生成以下输出:

Percentage of each word from the input list:
{'hello': 0.09090909090909091, 'tutorialspoint': 0.2727272727272727, 'python': 0.2727272727272727, 'codes': 0.18181818181818182, 'for': 0.09090909090909091, 'see': 0.09090909090909091}

方法3:使用operator模块的countOf()函数

示例

下面的程序使用countOf()函数返回给定输入字符串列表中每个单词的百分比 –

import operator as op
# input list of strings
inputList = ["hello tutorialspoint", "python codes", "tutorialspoint for python", "see python codes tutorialspoint"]

# joining all the elements of list using join()
join_string = " ".join(i for i in inputList)

# splitting the joined string into list of words
listOfWords = join_string.split()
resDict = dict()
for item in listOfWords:

   # checking whether the current element is not in the keys of dictionary
   if item not in resDict.keys():
      resDict[item] = op.countOf(listOfWords,   item)/len(listOfWords)
print("Percentage of each word from the input list:\n", resDict)

输出

执行以上程序后将生成如下输出:

Percentage of each word from the input list:
{'hello': 0.09090909090909091, 'tutorialspoint': 0.2727272727272727, 'python': 0.2727272727272727, 'codes': 0.18181818181818182, 'for': 0.09090909090909091, 'see': 0.09090909090909091}

结论

在本文中,我们学习了三种不同的Python方法来计算单词频率的百分比。我们还学习了如何使用operator模块的新函数countOf()来获取列表元素的频率。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程