博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
词级语言建模与字符级语言建模
阅读量:2441 次
发布时间:2019-05-10

本文共 801 字,大约阅读时间需要 2 分钟。

作者:chen_h

微信号 & QQ:862251340
微信公众号:coderpai


目前在自然语言理解问题中,字符级语言建模得到越来越多的关注。在这里,我简单地比较了一下字符级语言模型和词级语言模型。

词级语言建模是指把词作为文本信息的最小单位。在语义空间中,单词就好像是空间中的一个节点。在这种情况下,通过 TF 技术或者主题模型技术或者词嵌入模型来生成特征向量或字矢量,每个单词都用一个数字或者一个矢量来表示,之后就可以像循环神经网络这样的模型进行训练。目前,比较流行的方法是使用词嵌入来得到特征向量。该方法是训练一个大型的语料库,从而来得到一个 Word2Vec 模型。Word2Vec 模型包含一个词典,其中每个单词都是一个矢量化信息。

字符级语言建模就像用一个 0-1 向量来表示每一个字符,并且将这个向量送入模型进行训练,而文本中的语法和单词语义被简单地忽略掉,因为我们相信模型可以捕捉到这些语法和单词语义信息。字符级语言建模的思想来自于信号处理。

语言建模中面临的挑战是字符级语言建模,它需要大量的数据和足够多的训练次数,以便使得模型可以足够聪明从文本中提取出语法信息和单词语义信息。此外,它还需要数据扩充(通过使用同义词替换文本的部分),以避免泛化错误。

另一方面,词级语言建模的缺点是需要使用额外的 Word2Vec 分布模型,但构建这个模型需要大量的时间和精力。

如果我们使用 Tweet 的字向量来训练模型,那么字符级语言建模在短文本分析中能取得卓越的表现。

我们在使用词级语言建模时,我们会导入一个巨大的 Word2Vec 模型,并且还要分析那些未知词和拼写错误的单词。

那么,哪个模型是最好的呢?

我个人认为,字符级语言建模更像人类的智慧。假设,我们能构建一个足够聪明的模型,这个模型能理解更高级别的表示(比如,单词语义等),那么这个字符级语言建模就是非常伟大的。


来源:

转载地址:http://dtdqb.baihongyu.com/

你可能感兴趣的文章
如何在JavaScript中交换两个数组元素
查看>>
小程序 画布未加载_如何在HTML画布中加载图像
查看>>
如果Docker容器立即退出该怎么办
查看>>
如何使用JavaScript将图像添加到DOM
查看>>
docker 容器部署_根据Docker映像更新已部署的容器
查看>>
如何随机播放JavaScript数组中的元素
查看>>
web后端开发需要会前端吗_前端和后端Web开发之间的区别
查看>>
如何解决JavaScript中的“不是函数”错误
查看>>
tcp协议_TCP协议
查看>>
c语言中双引号和单引号_C中的双引号与单引号
查看>>
opencv 图像黑暗_如何在黑暗模式下更改HTML图像URL
查看>>
sql中select 使用_SQL,如何使用SELECT
查看>>
udp协议_UDP协议
查看>>
反向代理为什么叫反向代理_什么是反向代理?
查看>>
js访问对象键值属性_我们可以通过哪些方式访问对象属性的值?
查看>>
如何在JavaScript中删除字符串的最后一个字符
查看>>
c语言检查字符函数_如何在C中检查字符值
查看>>
如何在JavaScript中删除字符串的第一个字符
查看>>
rcp扩展文本编辑器_我如何使用文本扩展来节省时间
查看>>
c语言中的i/o_C语言中的基本I / O概念
查看>>