自然语言处理——语言模型(二)-FinClip官网

自然语言处理——语言模型(二)

网友投稿 1061 2022-11-17

自然语言处理——语言模型(二)

引言

本文主要介绍N-Gram语言模型相关知识。

N-Gram

我们知道这两句话中“今天春节是都我们休息”是不通顺的，我们希望语言模型能给这句话一个很低的概率。但在Unigram模型下，可以看出这两句话的概率是相等的。这就是Unigram模型不考虑单词顺序(单词独立)的弊端。

从这里可以看出来，由于Bigram模型考虑了前一个单词，这里可以很容易看出来第一句话是优于第二句话的。比如“今天是”比“今天春节”更加常见（通顺），“我们都”比“都我们”更加常见。

那Bigram只考虑了前面一个单词就能得到更好的结果，如果我们多考虑前面几个单词呢。这就是N-Gram模型。有一点是肯定的，考虑前面单词越多，能得到的效果越好。那是不是真的越多越好呢。

估计语言模型的概率

在上一篇文章中，我们假设已经知道这些概率。这些概率就是语言模型的概率，本节来探讨一下如何估计语言模型的概率。

Unigram

首先来看下Unigram模型，

下面来看一个简单的例子，假设语料库中的单词如下：

现在想要评估“今天/开始/训练营/课程”和“今天/没有/训练营/课程”这两句话的概率。

因为单词“没有”未出现在语料库中，导致它的概率为零，最终让整个句子的概率为零。这个句子显然是合理的，但是其概率为零是不合理的。

为零弥补这样的缺点，我们需要采用平滑的方法，就是在分母和分子上增加一个项，使得不会出现概率为零的情况。这个我们后面会讲。

Bigram

上面是Unigram的情况，那Bigram模型要怎么估计概率呢。

假设我们有个这样的语料库，其中“明天”出现了5次，其中有2次是“明天”后面接“是”的。

下面也用一个具体的例子来阐述。

我们有一个这样的语料库，要计算“今天/上午/想/出去/运动”和“今天/上午/的/天气/很好/呢”。

可以看到，由于“上午”后面没有出现“的”和“很好”后面没有出现“呢”，也存在概率为零的问题。

本篇文章就到这里，下篇文章将会介绍如何评估语言模型的好坏以及如何使用平滑来避免出现概率为零的情况。

参考

贪心学院课程

插件管理工具：提升效率，优化体验的利器

1061 2022-11-17

自然语言处理——语言模型(二)

操作系统寒武纪 - 会让企业IT高兴吗？

插件管理工具：提升效率，优化体验的利器

小程序原生组件—提升你的小程序体验

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计