自然语言处理 各种不明确性
由于自然语言有时可以有多种解释,这些解释将传递给试图理解输入给它们的自然语言的计算机。通常情况下,如果没有足够的上下文或者语法不正确,理解一个句子可能会很困难。
本文将介绍在自然语言处理中发现的许多不同类型的不明确性。
词性标注的不明确性
词性标注是将文本中的单词分类到一个词性(动词、名词等)的过程。通常情况下,同一个词在不同的句子结构中可以有多个词性分类。例如,经常可以看到既可以作为动词又可以作为名词使用的词:
- 我需要 邮寄 文件给我的朋友。( 动词 )
-
我需要找到寄给我的 邮件 。( 名词 )
结构歧义
这种歧义是因为同一个句子的不同解析方式可能导致不同的解释。看下面的句子:
The boy kicked the ball in his jeans.
这句话可以被解释为男孩在穿着牛仔裤的时候踢球,或者在球在牛仔裤里的时候踢球。这取决于句子如何被解析。
范围模糊性
在这里,我们看一下由于量词而引起的歧义。回顾一下几个数学逻辑术语,或者只是基本语法,我们知道“每个”和“任何”的词会出现在脑海中。
看看下面的句子 –
All students learn a programming language.
由于连续使用”all”后面跟着”a”的限定词,这个句子可以有两个不同的意思。这两个意思是:
- 第一个意思是所有学生学习相同的编程语言。
-
他们都学习一门不一定相同的语言。
词汇歧义
某些词汇具有可以有多个不同意思的特性。有两种形式的词汇歧义存在:多义性和同音异义词。
多义性 - 当两个词相同但在使用上有不同的意思时发生多义性,比如单词”foot”。”foot”可以描述身体部位,或者建筑物的底部。实际上,你用”foot”这个词来描述某事物的基底。
同音异义词 - 当一个词拼写或发音相同,但整体意义不同时发生同音异义词。虽然表面上相同,但意思完全不同。例如,单词”bass”可以指的是乐器,也可以指的是鱼类的一种。另一个示例是”horse”和”hoarse”,这里提到它们不仅仅是拼写,发音也很重要。这两个词的发音相似,但”horse”指的是动物,”hoarse”指的是喉咙痛。
语义歧义
现在,不仅词汇可以有多个意思,句子也可以根据上下文有多个意思。例如,句子”他吃了烧焦的千层面和派”可以有两种意思:
- 千层面被烧焦了,派没有。
-
两者都被烧焦了。
词汇歧义可以被视为语义歧义的一种子类型。
指代歧义
当一个短语由于使用多个对象,引用不清晰而具有多个解释时发生指代歧义。例如,看下面的句子:
I looked at Michelle with the telescope.
这句话根据谁有望远镜可以有两个不同的意思。
- Michelle亲自拿着望远镜。
-
说这句话的人正在使用望远镜来看Michelle。
指代歧义
这里我们有一个与指代歧义类似但更关注代词的歧义。如果一个句子中提到了多个人,使用代词可能会引起一些混淆。请看以下句子−
Michelle told Romany that she ate the cake.
现在,仅从句子中来看,不太清楚“she”是指的Michelle还是Romany。
结论
在这里,我们深入研究了语言学,特别是语言的歧义性。鉴于自然语言处理处理的是自然语言(主要是英语),我们在本课程中提高了语言学技巧,这将有助于处理各种自然语言输入并创建算法来理解说了什么。