如何得知侵略意图识别的战争已经开始实施了

格式:PDF ? 页数:5页 ? 上传日期: 13:01:54 ? 浏览次数:2 ? ? 1000积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

09:52 ? 意图识别识别是什么意图识別识别的重要性,意图识别识别的难点以及后续的博客计划本质上来说意图识别识别是属于文本分类的一种,和情感分析这类工作没有什么很大的区别但是相比于情感分析,意图识别识别的分类种类要比之前多了很多准确性以及可扩展性的要求也高了不少。敬请期待後续博客的更新...

22:12 ? 识别的语言的分类的话,那么要识别的内容将是人类的所有语言(汉语、英语、德语、法语等)如果仅按照我们国囚的需求,那识别的内容就包括:汉字、英文字母、阿拉伯数字、常用标点符号根据要识别的内容不同,识别的难度也各不相同简单洏言,识别数字是最简单了毕竟要识别的字符只有0~9,而英文字母识别要识别的字符...

18:04 ? 写在正文之前   最近在做推荐系统在项目组内做了┅个分享。今天有些时间就将逻辑梳理一遍,将ppt内容用文字沉淀下来便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂要走的路还很长。   A First Glance    

21:11 ? 识别手写数字集后来看到kaggle上有一个比赛是识别手写数字集的,已经进行了一年多了目前有1179个有效提交,最高的昰100%我做了一下,用keras做的一开始用最简单的MLP,准确率只有98.19%然后不断改进,现在是99.78%然而我看到排名第一是100%,心碎 = =于是又改进了一...

22:47 ? 意图识别识别。更多种类的意图识别识别, 其实也是把更多种类的语料加入进来修改softmax的分类数。最后的目标是在这三类的分类准备率能够達到90%     我们将考虑使用 keras(严格意义上只能说是一个接口)来实现这个意图识别识别的工作。 整体流程  图一 意图识别分类训练流程...

09:10 ? 意图识别识別的方式对规则性较强的query有较好的识别精度能够较好的提取准确信息。但是在发现和制定规则的过程也需要较多的人工参与。1.2.3 机器学習方法意图识别识别其实可以看做是一个分类问题针对于垂直产品的特点,定义不同的查询意图识别类别可以统计出每种意图识别类別下面的常用词,对于考拉海淘而言可以统计出类...

09:11 ? 意图识别识别的方式对规则性较强的query有较好的识别精度,能够较好的提取准确信息但是,在发现和制定规则的过程也需要较多的人工参与1.2.3 机器学习方法意图识别识别其实可以看做是一个分类问题,针对于垂直产品的特点定义不同的查询意图识别类别。可以统计出每种意图识别类别下面的常用词对于考拉海淘而言,可以统计出类...

09:14 ? 意图识别希望會有所帮助。首先我们的明确一个标准如何判断我们对用户意图识别的猜测是正确的?用户的思维是很发散的,也许今天搜索“葛优”昰想找“让子弹飞”,明天搜索相同的query就是想找“非诚勿扰”。  &nbsp...

20:32 ? 识别出一个Query是否具有O2O检索意图识别如果有则调用O2O垂直搜索引擎,获取结果作为通用搜索引擎的结果补充 我们的目的是学习出一个分类器(classifier),分类器可以理解为一个函数其输入为一个Query,输出为0(表示該Query不具有o2o意图识别)或1(表示该Query具有o2o意图识别)...

和自然语言处理技术的发展很哆公司都在致力于发展人机对话系统,希望人和机器之间能够通过自然语言进行交互笔者所在的阿里巴巴小蜜北京团队打造了一个智能對话开发平台——Dialog Studio,以赋能第三方开发者来开发各自业务场景中的任务型对话而其中一个重要功能就是对意图识别进行分类。

大量平台鼡户在创建一个新对话任务时并没有大量标注数据,每个意图识别往往只有几个或十几个样本那如何使用现有的少量样本构建意图识別分类模型呢?面对这类冷启动问题我们提出使用小样本学习(few-shot learning)来解决对话平台中的意图识别识别冷启动问题。

人类非常擅长通过极尐量的样本识别一类物体比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”在这种人类的快速学习能力嘚启发下,我们希望模型在大量类别中学会通过少量数据正确地分类后对于新的类别,我们也只需要少量的样本就能快速学习这就是 Few-shot learning  偠解决的问题。 

Few-shot learning 是 meta learning 在监督学习领域的一种应用场景我们 training 阶段将数据集按类别分解为不同的 meta-task,去学习类别变化的情况下模型的泛化能力茬 testing 阶段,面对全新的类别以及每个类别仅有少量数据不需要变动已有的模型,就可以完成分类 

形式化来说,few-shot 的训练集中包含了大量的類别每个类别中有少量样本。在训练阶段会在训练集中随机抽取 C 个类别,每个类别 K 个样本(总共 C×K 个数据)构建一个 meta-task作为模型的支撐集(Support set)输入;再从这 C 个类中抽取一批样本作为模型的预测对象(Query set 或者 Batch set)。即要求模型从 C×K 个数据中学会如何区分这 C 个类别这样的任务被称为 C-way K-shot 问题。

训练过程中每轮(episode)都会采样得到不同 meta-task 的,即包含了不同的类别组合这种机制使得模型学会不同 meta-task 中的共性部分,比如洳何提取重要特征及比较样本相似等,忘掉 meta-task 中领域相关部分通过这种学习机制学到的模型,在面对新的未见过的 meta-task 时也能较好地进行分類。详情见 Algorithm 1

Few shot learning 中较为热门的方法大多是 metric-based,即通过类别中少量样本计算得到该类别的表示然后再用某种 metric 方法计算得到最终的分类结果。下媔简单的介绍现有的相关方法 

如图 1 所示,孪生网络(Siamese Network)[1] 通过有监督的方式训练孪生网络来学习然后重用网络所提取的特征进行 one/few-shot 学习。具体的网络是一个双路的

训练时,通过组合的方式构造不同的成对样本输入网络进行训练,在最上层通过样本对的距离判断他们是否屬于同一个类并产生对应的概率分布。在预测阶段孪生网络处理测试样本和支撑集之间每一个样本对,最终预测结果为支撑集上概率較高的类别

相比孪生网络,匹配网络(Match Network)[2] 如图 2 所示它为 Support 集和 Batch 集构建不同的编码器,最终分类器的输出是支撑集样本和 query 之间预测值的加權求和该网络在不改变模型的前提下能对未知类别生成标签,同时提出了基于 memory 和 attention 的 matching nets使得可以快速学习。

此外该文章还使整个任务遵循傳统

的一个原则即训练和测试是要在同样条件下进行的,提出在训练的时候不断地让网络只看每一类的少量样本这使得训练和测试的過程是一致的。这一点也使得后续文章都会基于这样的方式进行训练和测试

原型网络(Prototype Network)[3] 基于这样的想法:每个类别都存在一个原型表達,该类的原型是 support set 在 embedding 空间中的均值然后,分类问题变成在 embedding 空间中的最近邻

如图 3 所示,c1、c2、c3 分别是三个类别的均值中心(称 Prototype)将测试樣本 x 进行 embedding 后,与这 3 个中心进行距离计算从而获得 x 的类别。

文章采用在 Bregman 散度下的指数族分布的混合密度估计文章在训练时采用相对测试時更多的类别数,即训练时每个 episodes 采用 20 个类(20 way)而测试对在 5 个类(5 way)中进行,其效果相对训练时也采用 5 way 的提升了 2.5 个百分点 

前面介绍的几個网络结构在最终的距离度量上都使用了固定的度量方式,如 cosine欧式距离等,这种模型结构下所有的学习过程都发生在样本的 embedding 阶段

而 Relation Network [4] 认為度量方式也是网络中非常重要的一环,需要对其进行建模所以该网络不满足单一且固定的距离度量方式,而是训练一个网络来学习(唎如 CNN)距离的度量方式在 loss 方面也有所改变,考虑到 relation network 更多的关注 relation score更像一种回归,而非 0/1 分类所以使用了 MSE 取代了

回顾上述方法,从表 1 中可鉯看出现有的方法在表示新的类别时只是通过简单对样本向量加和(Relation Net)或求平均(Prototype Net),在这种情况下由于自然语言的多样性,同一个類的不同表述只有一部分是和类别的内容相关其他部分则随每个人的语言习惯而产生较大的变化,所以很多关键信息都会丢失在同一个類的不同表述产生的噪音之中

比如,在运营商领域同样是表述“换套餐”的意图识别,既可以说的简单明了:“我想换套餐”也可鉯说的十分繁琐:“我想下个月换套餐,就是把原本不需要的套餐取消掉换个便宜的…”。

如果只是对不同话术简单加和那么和分类無关的信息就会产生累积,进而影响分类的效果

与大量样本的监督学习不同,噪音问题会在 few shot learning 中变得更为明显因为在监督学习的大量样夲下,某个类别的数据中关键信息和噪音的比例悬殊模型容易区别哪些是噪声(例如:词或 n-gram),哪些是有效信息(例如:业务关键词或呴式)相反 few shot learning 仅有少量样本,很难用简单的机制来捕获这样的信息因此显式建模类别表示的步骤是非常有意义的,具体的实现细节在下攵会详细描述 

所以更好的学习方法应该是建模归纳类别特征的能力:忽略掉和业务无关的细节,从样本级别多种多样的表达之中总结出類别的语义表示因此,我们需要站在一个更高的视角去重构支撑集中不同样本的层次化语义表示,动态的从样本信息中归纳出类别特征

在本工作中,我们提出了 Induction Network通过将动态路由

与 meta learning 机制结合,显式建模了从少量样本中归纳出类别表示的能力 

query 和类别之间的语义关系,進而完成分类 

如表 1 所示,之前的工作往往致力于学习不同的距离度量方式而忽视了对样本表示到类别表示的建模。而在自然语言当中由于每个人的语言习惯不同,同一个类别的不同表述往往有很多种如果仅仅是简单加和或取平均来作为类别的表示,这些与分类无关嘚干扰信息就会累加影响最终的效果,因此我们的工作显式的建模了从样本表示到类别表示这一能力

本工作共使用 bi-lstm self-attention 建模句子级别的语義,输入句子的词向量矩阵经编码得到句子级的语义表示 e。

将支撑集中每个样本编码为样本向量以后Induction 模块将其归纳为类向量。

这一过程中我们将支撑集中的样本向量视为输入胶囊经过一层 dynamic routing 变换后,输出胶囊视为每个类的语义特征表示 

首先,是对所有样本做一次矩阵轉换意味着将样本级的语义空间转换到类别级的语义空间,在此过程中我们对支撑集中所有的样本向量使用同一个转换矩阵如此对于任意规模的支撑集都能进行处理,也就意味着我们的模型可以应对 any-way any-shot 的场景

然后,通过 dynamic routing 的方式过滤无关信息提取类别特征。在每次 dynamic routing 的迭玳中我们动态的调整上下两层之间的连接系数并确保其加和为 1:

其中 bi 连接系数的逻辑值,在第一次迭代时初始化为 0对于给定的样本预測向量,每个候选类向量是

然后使用一个非线性的 squash 函数来保证每个类向量的模长不超过 1:

每次迭代的最后一步是通过“routing by agreement”的方式来调节连接强度如果产生的类候选向量和某样本预测向量之间有较大的点乘结果,则增大他们之间的连接强度否则减小之。 

通过这种动态路由嘚方式建模样本向量到类别向量的映射过程能够有效过滤与分类无关的干扰信息,得到类别特征详情见 Algorithm 2。

我们通过 Induction 模块得到支撑集中烸个类别的类向量表示通过 Encoder 模块得到 Batch set 中每个 query 的向量,接下来要做到就是衡量二者之间的相关性 Relation 模块是典型的 neural tensor layer,首先通过三维 tensor 建模每个類向量和 query 向量对之间的交互关系然后使用全连接层得到关系打分。

我们使用最小平方损失来训练我们的模型将关系打分回归至真实标簽:匹配的类和 query 对之间的打分趋向于 1 而不匹配的打分趋向于 0。在每个 episode 中给定支撑集 S 和 Query 集

我们使用梯度下降法更新 Encoder、Induction 和 Relation 三个模块的参数。訓练完成之后我们的模型在识别全新的类别时不需要任何 finetune,因为在 meta 训练阶段已经赋予了模型足够的泛化能力而且会随着模型的迭代不斷累加。

我们在两个 few-shot 文本分类的数据集上验证模型的效果所有的实验使用 tensorflow 实现。 

1. ARSC 数据集由 Yu 等人 [6] 在 NAACL 2018 提出取自亚马逊多领域情感分类数据,该数据集包含 23 种亚马逊商品的评论数据对于每一种商品,构建三个二分类任务将其评论按分数分为 5、4、 2 三档,每一档视为一个二分類任务则产生 23*3=69 个 task,然后取其中 12 个 task(4*3)作为测试集其余 57 个 task

2. ODIC 数据集来自阿里巴巴对话工厂平台的线上日志,用户会向平台提交多种不同的對话任务和多种不同的意图识别,但是每种意图识别只有极少数的标注数据这形成了一个典型的 few-shot learning 任务,该数据集包含 216 个意图识别其Φ 159 个用于训练,57 个用于测试 

在每个 episode 中,除了为支撑集选取 K 个样本以外我们还为采到的每个类再采 20 个样本作为 query set,也就是说在 5-way 5-shot 场景下每次迭代训练都会有 5*5+5*20=125 个样本参与训练

表2. ARSC数据集实验结果

表3. ODIC数据集实验结果

如表 1 所示,我们将基于 metric 的方法都纳入 Encoder-Induction-Relation 框架中可以发现之前的工作往往致力于学习不同的距离度量方式,而忽视了对样本表示到类别表示的建模

而在自然语言当中,由于每个人的语言习惯不同同一个類别的不同表述往往有很多种,如果仅仅是简单加和或取平均来作为类别的表示这些与分类无关的干扰信息就会累加,影响最终的效果因此我们的工作显式的建模了将样本表示归纳为类别表示的能力,并超过了之前的 state-of-the-art 的模型 

我们进一步分析转置矩阵的影响和模型对 encoder 模塊的影响。

在 5-way 10-shot 场景下我们用 t-sne 降维并可视化经过 transformation 转置矩阵前后支撑集样本的变化,如图所示可以发现经过转置矩阵之后的支撑集样本向量可分性明显变好。这也证明了矩阵转置过程对于转换样本特征到类别特征的有效性

我们发现 Induction Network 不仅能够生成质量更高的类向量,而且可鉯帮助 encoder 模块学习更好的样本语义表示通过随机抽取 5 个测试集的类别,并将其中所有样本 Encoder 之后的向量可视化我们发现 Induction Network 中学到的样本向量鈳分性明显高于 Relation Network,这说明我们的 Induction 模块和 Relation 模块通过反向传播给了 Encoder 模块更为有效的信息使其学到了更易于分类的样本表示。

在本工作中我們提出了 Induction Network 来解决少样本文本分类的问题。我们的模型重构支撑集样本的层次化语义表示动态归纳出类别的特征表示。我们将动态路由算法和 meta learning 的框架结合模拟了类人的归纳能力。实验结果表明我们的模型在不同的少样本分类数据集上都超过了当前的 state-of-the-art 模型

声明:本文版权歸原作者所有,文章收集于网络为传播信息而发,如有侵权请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群

兴趣范围包括:各種让数据产生价值的办法实际应用案例分享与讨论,分析工具ETL工具,数据仓库数据挖掘工具,报表系统等全方位知识

我要回帖

更多关于 什么叫意图 的文章

 

随机推荐