- · 《古汉语研究》投稿方式[01/26]
- · 《古汉语研究》期刊栏目[01/26]
- · 古汉语研究版面费是多少[01/26]
基于隐马尔科夫模型的古汉语词性标注(2)
作者:网站采编关键词:
摘要:同时注意,此标记集中将标点分为两类,分别为终止性标点和停顿性标点。 2 标注算法 本文的标注算法基于隐马尔科夫模型实现。 设w1,…,wT是一组文字序
同时注意,此标记集中将标点分为两类,分别为终止性标点和停顿性标点。
2 标注算法
本文的标注算法基于隐马尔科夫模型实现。
设w1,…,wT是一组文字序列,需要找到一组标记序列t1,…,tT,使得概率P最大化,如式(1)所示。
根据贝叶斯定理,得式(1)等于式(2)。
P(t1,…,tT)·P(w1,…,wT|t1,…,tT)
表1 古汉语标记集序号标注名称含义0N名词1Aa形容词作定语2Aw形容词作谓语3Az形容词作状语4Ab形容词作表语5Ad副词6Vi不跟宾语的动词7Vt跟宾语的动词8Vy意动9Vs使动10Vb省略宾语的动词11Vx系动词12Vyou动词“有”13Vyue动词“曰”14Conj连词15Yq语气词16Prep带宾语的介词17Prepb省略宾语的介词18Num数词19Qpron疑问代词20Npron名词性代词21Apron形容词性代词22Za“之”作定语后置标志23Zj“者”作名词性结尾24Zd“之”作“的”25Zw“之”作取消主谓独立性标志26Fy发语词27Period终止性标点(。;?!)28Comma停顿性标点(,、:)
2.1 隐马尔科夫模型
为避免数据稀疏的问题,词性标注器中n-grams通常n<4,本文使用了unigrams,bigrams和trigrams。
与传统HMM不同的是,这里将词频表示为单词-标记的概率,而不是标记-单词的概率。
这里将unigrams,bigrams和trigrams的概率表示为式(4)—式(7)。
上式中,t1,t2,t3是已设定的标记,w是词典中收录的单词。N表示训练集中样本总数。
对于bi-grams模型,对下式进行最大化,如式(8)所示。
对于tri-grams模型,对下式进行最大化,如式(9)所示。
2.2 动态规划算法
本文的标注算法基于Viterbi算法,本质上是动态规划。为了编程的简单性和标注的准确性,这里在每个句子前添加终止符标点,并假设每个句子都以句号结束。
Bigram模型:
对于bi-gram模型,动态规划算法如下(伪代码):
list [0]=”period” ;
for i=1 to len
for j=0 to tagnum-1
best [i] [j]=MAXk=0~tagnum-1(
best [i-1] [k]*prob [list [i]] *markov [k] [j] )
pre [i] [j]=index of k that gave the max above
Trigram模型:
对于Trigram模型,由于终止性标点后的第一个词前面没有任何词,这种情况下直接使用bigrams的结果。算法如下:
list [0]=”period” ;
for i=1 to len
if list [i-1] is a punctuation then
use bigrams results instead
else
for j=0 to tagnum-1
for l=0 to tagnum-1
best3 [i] [l] [j]=MAXk=0~tagnum-1(
*prob [list [i] [j]] )
pre3 [i] [l] [j]=index of k that gave the max above
2.3 未登录词处理
由于中文没有后缀,欧洲语言使用的基于单词后缀对未登录词标注的方法不适用于现代汉语或古汉语。本文提出对于训练集中没有出现过的词,将其单词-标记概率表示为每个标记的unigrams概率。例如,对于一个未登录词w,如式(10)所示。
N为训练集样本数,此方法经实验证明非常有效,特别是在trigram模型中,未登录词的标注准确率得到显著提高。
3 结果分析
3.1 准确率
本文从《荀子》中选择了一段相对简单的文本作为测试集,长度大约为200个词。首先测试了标记集和算法的学习曲线。随着训练集的增大,结果显示如图2所示。
图2 Bigram模型和Trigram模型的学习曲线
同时还测试了整体的标注准确率,以及针对已知词和未登录词的标注准确率。
图2是标注器的学习曲线,可以看出标注准确率取决于训练数据的数量。语料库大小就是训练集的长度。随着语料库的扩大,bigrams的准确率从74.0%上升到94.9%,trigrams的准确率从69.1%上升到96.5%。当语料库较小时,trigrams的准确率低于bigrams,主要是由于数据稀疏问题。最后,当上下文信息更加丰富时,trigrams准确率则高于bigrams,如图3所示。
(a) Bigram模型
(b) Trigram模型图3 针对已知词和未登录词的学习曲线
从图3的学习曲线可以看出对已知词的标注,bigrams和trigrams的初始准确率分别为79.1%和74.7%。结果表明,相比大多数英文词性标注的结果,对于古汉语的标注,已知词的初始标注准确率较低。这主要是因为大多数英语语料库中出现的单词中有一半以上是没有歧义的,但古汉语中歧义较多,因此当古汉语语料库较小时会导致其标注准确率较低。
文章来源:《古汉语研究》 网址: http://www.ghyyjzzs.cn/qikandaodu/2021/0128/330.html
上一篇:那些催人奋进的『耻』味良药
下一篇:古代汉语常用虚词用法比较研究