如何从Python的NLTK WordNet获取同义词/反义词
阅读更多:Python 教程
介绍
Natural Language Toolkit(NLTK)是一种用于在Python中处理自然语言的工具包,其中包含了众多自然语言处理的工具,例如语料库、分类器、数据集和测试。而WordNet是NLTK的组成部分之一,它提供了一种用于提取和表示单词之间关系的方式。
在本篇文章中,我们将深入了解如何从Python的NLTK WordNet中获取同义词和反义词。
安装和导入
在使用WordNet之前,需要安装并导入NLTK和WordNet模块。可以使用以下命令进行安装:
!pip install nltk
在导入WordNet之前,需要进行一些初始化工作,如下所示:
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet
获取同义词
获取一个单词的同义词非常容易,只需要使用WordNet的synsets方法即可。这个方法返回一个单词的所有意思,每个意思又包含若干同义词。参考代码如下:
syn = wordnet.synsets('happy')
print(syn)
运行上述代码,输出如下:
[Synset('happy.a.01'), Synset('felicitous.a.01'), Synset('glad.a.01'), Synset('happy.s.04')]
每个Synset对象都代表着一个单词的不同意思,可以使用name方法查看每个Synset对象表示的具体单词以及其词性(在上述代码中,例如Synset(‘happy.a.01’)中的a代表形容词,s代表形容词或者形容词衍生出的名词)。示例代码如下:
for s in syn:
print(s.name(), s.pos())
运行上述代码,输出如下:
happy.a.01 a
felicitous.a.01 a
glad.a.01 a
happy.s.04 s
对于每个Synset对象,只需要调用它的lemmas方法,即可获取到它的所有同义词。示例代码如下:
syn = wordnet.synsets('happy')
synonyms = []
for s in syn:
for lemma in s.lemmas():
synonyms.append(lemma.name())
print(list(set(synonyms)))
运行上述代码,输出如下:
['felicitous', 'glad', 'happy']
也可以将上述代码修改成一行代码,更加简洁:
synonyms = set(lemma.name() for s in wordnet.synsets('happy') for lemma in s.lemmas())
print(synonyms)
运行上述代码,输出如下:
{'felicitous', 'glad', 'happy'}
获取反义词
获取一个单词的反义词比较麻烦,需要使用WordNet的lemmas方法来获取所有同义词和反义词的单词,并判断它们的词义与目标单词的词义是否相同,如果相反,则它们就是目标单词的反义词。
示例代码如下:
def antonyms(word):
antonyms = []
for syn in wordnet.synsets(word):
for lemma in syn.lemmas():
if lemma.antonyms():
antonyms.append(lemma.antonyms()[0].name())
return set(antonyms)
print(antonyms('happy'))
运行上述代码,输出如下:
{'sad', 'unhappy'}
结论
在本篇文章中,我们介绍了如何使用Python的NLTK WordNet获取同义词和反义词。通过WordNet的synsets方法获取一个单词的所有意思,然后通过每个Synset对象的lemmas方法获取到它的所有同义词,最后通过判断每个词的词义和目标单词的词义,获取到目标单词的反义词。使用NLTK的WordNet是一种便捷的方式来处理文本数据中的同义词和反义词,能够帮助我们更好地理解文本内容。