当前位置:首页 > 论文知识 » 正文

中文分词工具有哪些(特征对齐算法)

目录:

中文分词工具有哪些

特征对齐算法

中文分词工具有哪些

中文分词工具有哪些

1、 存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:1.与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。2.在中文里,“词”和“词组”边界模糊现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就不很清楚,中文分词方法可以帮助判别英文单词的边界。 中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小);4)双向最大匹配法(进行由左到右、由右到左两次扫描)还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术OO,这里不做详细论述。 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。另外一类是基于统计机器学习的方法。给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。我们知道,汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词。这种方法的最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。例如,海量科技的分词算法就采用“复方分词法”,所谓复方,就是像中西医结合般综合运用机械方法和知识方法。对于成熟的中文分词系统,需要多种算法综合处理问题。

特征对齐算法

特征对齐算法

1、命名实体识别是自然语言处理的一项重要工作,对于跨语言的自然语言处理应用,除了命名实体识别,命名实体的翻译对于提升机器翻译质量、跨语言信息检索效果等也有着重要作用。由于命名实体更新较快,大多数命名实体都属于词典的未登录词,这为命名实体识别和翻译带来了困难。

2、对于双语命名实体词汇进行置信度评估,根据置信度高的实体对齐,对命名实体相关的分词错误进行修正从而提高命名实体识别的效果,调整命名实体词汇的分词粒度,优化双语命名实体对齐,提高双语命名实体翻译抽取的效果,进而提高统计机器翻译质量。

3、通过利用实体词汇的对其信息修正命名实体识别结果,再根据实体对齐结果调整分词粒度、修正错误分词。分词优化后使得双语命名实体尽可能多地一一对应,进而提高了中英命名实体翻译抽取和统计机器翻译地效果。

4、双语命名实体对齐的方法主要由两种:在双语实体识别的基础上利用对齐模型寻找两者的对齐关系;仅在一种语言中识别命名实体,再利用融合多特征的对齐模型,在另一个语言中寻找它们对应的翻译。

后台-系统设置-扩展变量-手机广告位-内容正文底部

本文标签:分词  匹配  方法  实体  命名

<< 上一篇 下一篇 >>

  • 评论(
  • 赞助本站

赞助团论文网
留言与评论(共有 0 条评论)
   
验证码:

相关文章

随机文章

标签列表

最近发表

    热门文章 | 最新文章 | 随机文章

最新留言

首页 论文知识 教育论文 毕业论文 教学论文 经济学 管理学 职称论文 法学 理学 医学 社会学 物理学 文献 工程论文 学位论文 研究论文

Powered 团论文网 版权所有 备案号:粤ICP备2022136924号-2统计代码

全站搜索