如何从Python的NLTK WordNet获取同义词/反义词

介绍

Natural Language Toolkit（NLTK）是一种用于在Python中处理自然语言的工具包，其中包含了众多自然语言处理的工具，例如语料库、分类器、数据集和测试。而WordNet是NLTK的组成部分之一，它提供了一种用于提取和表示单词之间关系的方式。

在本篇文章中，我们将深入了解如何从Python的NLTK WordNet中获取同义词和反义词。

安装和导入

在使用WordNet之前，需要安装并导入NLTK和WordNet模块。可以使用以下命令进行安装：

!pip install nltk

在导入WordNet之前，需要进行一些初始化工作，如下所示：

import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet

获取同义词

获取一个单词的同义词非常容易，只需要使用WordNet的synsets方法即可。这个方法返回一个单词的所有意思，每个意思又包含若干同义词。参考代码如下：

syn = wordnet.synsets('happy')
print(syn)

运行上述代码，输出如下：

[Synset('happy.a.01'), Synset('felicitous.a.01'), Synset('glad.a.01'), Synset('happy.s.04')]

每个Synset对象都代表着一个单词的不同意思，可以使用name方法查看每个Synset对象表示的具体单词以及其词性（在上述代码中，例如Synset(‘happy.a.01’)中的a代表形容词，s代表形容词或者形容词衍生出的名词）。示例代码如下：

for s in syn:
    print(s.name(), s.pos())

运行上述代码，输出如下：

happy.a.01 a
felicitous.a.01 a
glad.a.01 a
happy.s.04 s

对于每个Synset对象，只需要调用它的lemmas方法，即可获取到它的所有同义词。示例代码如下：

syn = wordnet.synsets('happy')
synonyms = []
for s in syn:
    for lemma in s.lemmas():
        synonyms.append(lemma.name())

print(list(set(synonyms)))

运行上述代码，输出如下：

['felicitous', 'glad', 'happy']

也可以将上述代码修改成一行代码，更加简洁：

synonyms = set(lemma.name() for s in wordnet.synsets('happy') for lemma in s.lemmas())
print(synonyms)

运行上述代码，输出如下：

{'felicitous', 'glad', 'happy'}

获取反义词

获取一个单词的反义词比较麻烦，需要使用WordNet的lemmas方法来获取所有同义词和反义词的单词，并判断它们的词义与目标单词的词义是否相同，如果相反，则它们就是目标单词的反义词。

示例代码如下：

def antonyms(word):
    antonyms = []
    for syn in wordnet.synsets(word):
        for lemma in syn.lemmas():
            if lemma.antonyms():
                antonyms.append(lemma.antonyms()[0].name())
    return set(antonyms)

print(antonyms('happy'))

运行上述代码，输出如下：

{'sad', 'unhappy'}

结论

在本篇文章中，我们介绍了如何使用Python的NLTK WordNet获取同义词和反义词。通过WordNet的synsets方法获取一个单词的所有意思，然后通过每个Synset对象的lemmas方法获取到它的所有同义词，最后通过判断每个词的词义和目标单词的词义，获取到目标单词的反义词。使用NLTK的WordNet是一种便捷的方式来处理文本数据中的同义词和反义词，能够帮助我们更好地理解文本内容。