网页如何制作网站,专业建设网站哪家好,做网站界面,西安营销型网站建设动力无限摘要#xff1a;本文介绍了自然语言处理的基础知识#xff0c;重点阐述了语言的构成要素和语法范畴。语言由音系学、形态学、句法学、语义学和语用学五个相互关联的部分组成。语法范畴包括数、性、人称、格、级、定指/不定指、时态、体、语气和一致关系等基本模块。文章还对比…摘要本文介绍了自然语言处理的基础知识重点阐述了语言的构成要素和语法范畴。语言由音系学、形态学、句法学、语义学和语用学五个相互关联的部分组成。语法范畴包括数、性、人称、格、级、定指/不定指、时态、体、语气和一致关系等基本模块。文章还对比了英语书面语和口语的语法差异指出口语中存在言语不流畅、修正和词汇片段等特征。这些语言学基础知识为自然语言处理研究提供了理论框架。目录自然语言处理 —— 基础入门自然语言语法描述性语法规定性语法语言的构成要素音系学音位形态学词位句法学语义学语用学语法范畴数性人称格级定指与不定指时态体语气一致关系口语句法学言语不流畅与修正话语重启词汇片段自然语言处理 —— 基础入门自然语言语法在语言学中语言是一系列任意的语音符号集合。我们可以认为语言兼具创造性、规则性、先天性与普遍性同时也是人类独有的产物。不同的人对语言本质的理解存在差异人们对语言本质也有着诸多误解因此理解 “语法” 这一含义模糊的术语就显得尤为重要。在语言学中语法可被定义为语言运行所遵循的规则或准则。从广义上语法可分为两类描述性语法语言学家和语法学家对使用者的语言规则进行梳理总结后形成的规则体系被称为描述性语法。规定性语法这是一种截然不同的语法概念它试图为语言使用确立一套正确性标准这类语法与语言的实际使用规律关联甚微。语言的构成要素语言学研究的语言体系可划分为多个相互关联的组成部分这些划分是语言学研究中约定俗成且带有一定任意性的分类方式。各构成要素的解释如下音系学音系学是语言的首要构成要素研究特定语言的语音系统。该词源自古希腊语其中 “phone” 意为 “声音” 或 “语音”。语音学是音系学的一个分支从语音的产生、感知及物理属性角度研究人类语言的语音。国际音标IPA是音系学研究中对人类语音进行规范表征的工具。在国际音标体系中每个书写符号唯一对应一种语音反之亦然。音位音位是语言中区分不同词汇的语音单位在语言学中音位通常用斜杠标注。例如音位 /k/ 出现在 kit小桶、skit滑稽短剧等词汇中。形态学形态学是语言的第二大构成要素研究特定语言中词汇的结构与分类。该词源自古希腊语“morphe” 意为 “形式”。形态学探究语言中词汇的构成规则即语音如何组合成语素如前缀、后缀、词根这类有意义的单位同时也研究词汇如何归为不同的词性。词位在语言学中词位是形态分析的抽象单位对应一个词汇的所有形态变化形式。词位在句子中的使用方式由其语法范畴决定词位可以是单个词汇也可以是多词组合。例如talk说话是单字词位有 talks、talked、talking 等多种语法变体“speak up大声说”“pull through渡过难关” 等则属于多词词位。句法学句法学是语言的第三大构成要素研究词汇如何组合成更大的语言单位以及组合的顺序和规则。该词源自古希腊语 “suntassein”意为 “整理、排列”。句法学的研究对象包括句子的类型与结构、从句及短语的相关规则。语义学语义学是语言的第四大构成要素研究语言如何传递意义这些意义既可以与外部客观世界相关联也可以与句子的语法结构相关。该词源自古希腊语 “semainein”意为 “表示、表明、发出信号”。语用学语用学是语言的第五大构成要素研究语言的功能及其在具体语境中的使用规律。该词源自古希腊语 “pragma”意为 “行为、事务”。语法范畴语法范畴可定义为某一语言的语法体系中具有共同特征的语言单位或语法特征的类别这些单位是构成语言的基本模块语法范畴也被称为语法特征。以下为常见的语法范畴分类数数是最简单的语法范畴主要包含两种形式单数和复数。单数表示 “一个” 的概念复数表示 “一个以上” 的概念。例如dog狗单数/dogs狗复数、this这个单数/these这些复数。性语法性通过人称代词和第三人称的形式变化体现常见的语法性形式有第三人称单数的 he他、she她、it它第一、二人称的 I我、we我们、you你 / 你们第三人称复数 they他们 / 她们 / 它们属于通性或中性。人称人称也是基础的语法范畴主要分为三类第一人称指说话者自身第二人称指听话者即被说话的对象第三人称指说话所提及的人或事物。格格是较难掌握的语法范畴之一用于表示名词短语在句中的语法功能或名词短语与动词、其他名词短语之间的语法关系。人称代词和疑问代词主要有三种格的形式主格充当句子的主语例如I我、we我们、you你 / 你们、he他、she她、it它、they他们 / 她们 / 它们、who谁所有格表示所属关系例如my/mine我的、our/ours我们的、his他的、her/hers她的、its它的、their/theirs他们的 / 她们的 / 它们的、whose谁的宾格充当句子的宾语例如me我、us我们、you你 / 你们、him他、her她、them他们 / 她们 / 它们、whom谁。级级这一语法范畴主要适用于形容词和副词分为三种形式原级单纯描述事物的属性特征例如big大的、fast快的、beautiful美丽的比较级表示两个事物之间某一属性的程度差异即 “更……”例如bigger更大的、faster更快的、more beautiful更美丽的最高级表示三个及以上事物之间某一属性的最高程度即 “最……”例如biggest最大的、fastest最快的、most beautiful最美丽的。定指与不定指这两个概念较为简单定指表示所指对象是说话者和听话者都已知、熟悉或可识别的不定指则表示所指对象是双方未知或不熟悉的。这一概念可通过冠词与名词的搭配使用理解定冠词the不定冠词a/an。时态时态属于动词的语法范畴是通过语言形式表示动作发生的时间时态建立了动作发生时间与说话时刻之间的关联。时态大致分为三类一般现在时表示动作发生在当下例如Ram works hard.拉姆努力工作。一般过去时表示动作发生在说话时刻之前例如it rained.下雨了。一般将来时表示动作发生在说话时刻之后例如it will rain.将要下雨了。。体体表示对动作或事件的观察视角主要分为两种类型完成体将动作或事件视为一个完整的整体例如英语中的一般过去时句子 “yesterday I met my friend.昨天我见到了我的朋友。” 就属于完成体因该视角下事件是完整结束的进行体将动作或事件视为正在进行、尚未完成的过程例如英语中的现在分词形式句子 “I am working on this problem.我正在解决这个问题。” 属于进行体因该视角下事件处于持续进行中。语气语气的定义相对复杂简单来说它表示说话者对所述内容的态度是动词的语法特征之一与时态、体相互独立。常见的语气包括陈述语气、疑问语气、祈使语气、禁令语气、虚拟语气、可能语气、愿望语气此外动名词和分词也会体现相应语气特征。一致关系一致关系也被称为 “呼应”指一个词的形式会根据与之相关的其他词发生变化即让不同词汇或词性在某一语法范畴上保持形式一致。常见的一致关系基于以下语法范畴形成人称一致主要体现为主谓一致例如英语中只能说 I am、He is而不能说 He am、I is数的一致同样主要体现为主谓一致不同的人称和数对应特定的动词形式例如第一人称单数 “I really am.我确实是。”、第二人称复数 “We really are.我们确实是。”、第三人称单数 “The boy sings.这个男孩唱歌。”、第三人称复数 “The boys sing.这些男孩唱歌。”性的一致在英语中主要体现为代词与先行词在性上保持一致例如He reached his destination.他到达了目的地。、The ship reached her destination.这艘船抵达了目的地。格的一致格的一致在英语中并非显著的语法特征例如who came first − he or his sister?谁先到的 —— 他还是他的姐姐 / 妹妹。口语句法学英语书面语和口语的语法虽有诸多共性但也在多个方面存在差异。以下特征是二者语法的主要区别言语不流畅与修正这是英语书面语和口语语法最显著的区别这类现象单独来看被称为 “言语不流畅”整体则被称为 “言语修正”。言语不流畅主要包括以下表现填充词说话者在语句中会使用一些无实际语义的填充词也叫停顿填充词例如uh呃、um嗯待修正部分与修正部分语句中被重复的词汇片段为待修正部分同一位置被替换的词汇则为修正部分。举例理解Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?ABC 航空公司有单价 5000 卢比的单程航班呃单程票价吗在这个句子中“one-way flights单程航班” 是待修正部分“one-way fares单程票价” 是修正部分。话语重启在填充词停顿后会出现话语重启的现象。例如在上述例句中说话者先开始询问 “单程航班”随后停顿并使用填充词修正后重新开始询问 “单程票价”这就是话语重启。词汇片段说话时人们有时会说出不完整的词汇片段例如wwha-what is the time?几 —— 几点了句中的 “wwha-” 就是词汇片段。