基于隐马尔科夫模型的古汉语词性标注(2) - 古汉语研究杂志社投稿_期刊论文发表|版面费|电话|编辑部- 古汉语研究

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于隐马尔科夫模型的古汉语词性标注(2)

作者:

关键词:

摘要：

同时注意，此标记集中将标点分为两类，分别为终止性标点和停顿性标点。

2 标注算法

本文的标注算法基于隐马尔科夫模型实现。

设w1,…,wT是一组文字序列，需要找到一组标记序列t1,…,tT，使得概率P最大化，如式(1)所示。

根据贝叶斯定理，得式(1)等于式(2)。

P(t1,…,tT)·P(w1,…,wT|t1,…,tT)

表1 古汉语标记集序号标注名称含义0N名词1Aa形容词作定语2Aw形容词作谓语3Az形容词作状语4Ab形容词作表语5Ad副词6Vi不跟宾语的动词7Vt跟宾语的动词8Vy意动9Vs使动10Vb省略宾语的动词11Vx系动词12Vyou动词“有”13Vyue动词“曰”14Conj连词15Yq语气词16Prep带宾语的介词17Prepb省略宾语的介词18Num数词19Qpron疑问代词20Npron名词性代词21Apron形容词性代词22Za“之”作定语后置标志23Zj“者”作名词性结尾24Zd“之”作“的”25Zw“之”作取消主谓独立性标志26Fy发语词27Period终止性标点(。;?!)28Comma停顿性标点(,、:)

2.1 隐马尔科夫模型

为避免数据稀疏的问题，词性标注器中n-grams通常n<4，本文使用了unigrams，bigrams和trigrams。

与传统HMM不同的是，这里将词频表示为单词-标记的概率，而不是标记-单词的概率。

这里将unigrams，bigrams和trigrams的概率表示为式(4)—式(7)。

上式中，t1，t2，t3是已设定的标记，w是词典中收录的单词。N表示训练集中样本总数。

对于bi-grams模型，对下式进行最大化，如式(8)所示。

对于tri-grams模型，对下式进行最大化，如式(9)所示。

2.2 动态规划算法

本文的标注算法基于Viterbi算法，本质上是动态规划。为了编程的简单性和标注的准确性，这里在每个句子前添加终止符标点，并假设每个句子都以句号结束。

Bigram模型：

对于bi-gram模型，动态规划算法如下(伪代码)：

list [0]=”period” ;

for i=1 to len

for j=0 to tagnum-1

best [i] [j]=MAXk=0～tagnum-1(

best [i-1] [k]*prob [list [i]] *markov [k] [j] )

pre [i] [j]=index of k that gave the max above

Trigram模型：

对于Trigram模型，由于终止性标点后的第一个词前面没有任何词，这种情况下直接使用bigrams的结果。算法如下：

list [0]=”period” ;

for i=1 to len

if list [i-1] is a punctuation then

use bigrams results instead

else

for j=0 to tagnum-1

for l=0 to tagnum-1

best3 [i] [l] [j]=MAXk=0～tagnum-1(

*prob [list [i] [j]] )

pre3 [i] [l] [j]=index of k that gave the max above

2.3 未登录词处理

由于中文没有后缀，欧洲语言使用的基于单词后缀对未登录词标注的方法不适用于现代汉语或古汉语。本文提出对于训练集中没有出现过的词，将其单词-标记概率表示为每个标记的unigrams概率。例如，对于一个未登录词w，如式(10)所示。

N为训练集样本数，此方法经实验证明非常有效，特别是在trigram模型中，未登录词的标注准确率得到显著提高。

3 结果分析

3.1 准确率

本文从《荀子》中选择了一段相对简单的文本作为测试集，长度大约为200个词。首先测试了标记集和算法的学习曲线。随着训练集的增大，结果显示如图2所示。

图2 Bigram模型和Trigram模型的学习曲线

同时还测试了整体的标注准确率，以及针对已知词和未登录词的标注准确率。

图2是标注器的学习曲线，可以看出标注准确率取决于训练数据的数量。语料库大小就是训练集的长度。随着语料库的扩大，bigrams的准确率从74.0%上升到94.9%，trigrams的准确率从69.1%上升到96.5%。当语料库较小时，trigrams的准确率低于bigrams，主要是由于数据稀疏问题。最后，当上下文信息更加丰富时，trigrams准确率则高于bigrams，如图3所示。

(a) Bigram模型

(b) Trigram模型图3 针对已知词和未登录词的学习曲线

从图3的学习曲线可以看出对已知词的标注，bigrams和trigrams的初始准确率分别为79.1%和74.7%。结果表明，相比大多数英文词性标注的结果，对于古汉语的标注，已知词的初始标注准确率较低。这主要是因为大多数英语语料库中出现的单词中有一半以上是没有歧义的，但古汉语中歧义较多，因此当古汉语语料库较小时会导致其标注准确率较低。

文章来源：《古汉语研究》网址: http://www.ghyyjzzs.cn/qikandaodu/2021/0128/330.html