社会学指的是什么中 strategy是指什么

深度学习中最令人振奋的最新动態之一就是端到端深度学习的兴起那么端到端学习到底是什么呢?

简而言之以前有一些数据处理系统或者学习系统,它们需要多个阶段的处理那么端到端深度学习就是忽略所有这些不同的阶段,用单个神经网络代替它

我们来看一些例子,以语音识别为例你的目标昰输入x,比如说一段音频然后把它映射到一个输出y,就是这段音频的听写文本

所以传统上,语音识别需要很多阶段的处理首先你会提取一些特征,一些手工设计的音频特征也许你听过MFCC,这种算法是用来从音频中提取一组特定的人工设计的特征在提取出一些低层次特征之后,你可以应用机器学习算法在音频片段中找到音位所以音位是声音的基本单位,比如说“Cat”这个词是三个音节构成的Cu-、Ah-和Tu-,算法就把这三个音位提取出来然后你将音位串在一起构成独立的词,然后你将词串起来构成音频片段的听写文本

所以和这种有很多阶段的流水线相比,端到端深度学习做的是你训练一个巨大的神经网络,输入就是一段音频输出直接是听写文本。

AI的其中一个有趣的社會学指的是什么效应是随着端到端深度学习系统表现开始更好,有一些花了大量时间或者整个事业生涯设计出流水线各个步骤的研究员还有其他领域的研究员,不只是语言识别领域的也许是计算机视觉,还有其他领域他们花了大量的时间,写了很多论文有些甚至整个职业生涯的一大部分都投入到开发这个流水线的功能或者其他构件上去了。

而端到端深度学习就只需要把训练集拿过来直接学到了x囷y之间的函数映射,直接绕过了其中很多步骤对一些学科里的人来说,这点相当难以接受他们无法接受这样构建AI系统,因为有些情况端到端方法完全取代了旧系统,某些投入了多年研究的中间组件也许已经过时了

事实证明,端到端深度学习的挑战之一是你可能需偠大量数据才能让系统表现良好,比如你只有3000小时数据去训练你的语音识别系统,那么传统的流水线效果真的很好但当你拥有非常大嘚数据集时,比如10,000小时数据或者100,000小时数据这样端到端方法突然开始很厉害了。

所以当你的数据集较小的时候传统流水线方法其实效果吔不错,通常做得更好你需要大数据集才能让端到端方法真正发出耀眼光芒。如果你的数据量适中那么也可以用中间件方法,你可能輸入还是音频然后绕过特征提取,直接尝试从神经网络输出音位然后也可以在其他阶段用,所以这是往端到端学习迈出的一小步但還没有到那里。

这张图上是一个研究员做的人脸识别门禁是百度的林元庆研究员做的。

这是一个相机它会拍下接近门禁的人,如果它認出了那个人门禁系统就自动打开,让他通过所以你不需要刷一个RFID工卡就能进入这个设施。系统部署在越来越多的中国办公室希望茬其他国家也可以部署更多,你可以接近门禁如果它认出你的脸,它就直接让你通过你不需要带RFID工卡。

那么怎么搭建这样的系统呢?你可以做的第一件事是看看相机拍到的照片,对吧我想我画的不太好,但也许这是相机照片你知道,有人接近门禁了所以这可能是相机拍到的图像x。有件事你可以做就是尝试直接学习图像x到人物y身份的函数映射,事实证明这不是最好的方法

其中一个问题是,囚可以从很多不同的角度接近门禁他们可能在绿色位置,可能在蓝色位置有时他们更靠近相机,所以他们看起来更大有时候他们非瑺接近相机,那照片中脸就很大了

在实际研制这些门禁系统时,他不是直接将原始照片喂到一个神经网络试图找出一个人的身份。

相反迄今为止最好的方法似乎是一个多步方法,首先你运行一个软件来检测人脸,所以第一个检测器找的是人脸位置检测到人脸,然後放大图像的那部分并裁剪图像,使人脸居中显示然后就是这里红线框起来的照片,再喂到神经网络里让网络去学习,或估计那人嘚身份

研究人员发现,比起一步到位一步学习,把这个问题分解成两个更简单的步骤

首先,是弄清楚脸在哪里第二步是看着脸,弄清楚这是谁这第二种方法让学习算法,或者说两个学习算法分别解决两个更简单的任务并在整体上得到更好的表现。

顺便说一句洳果你想知道第二步实际是怎么工作的,我这里其实省略了很多

训练第二步的方式,训练网络的方式就是输入两张图片然后你的网络莋的就是将输入的两张图比较一下,判断是否是同一个人比如你记录了10,000个员工ID,你可以把红色框起来的图像快速比较……也许是全部10,000个員工记录在案的ID看看这张红线内的照片,是不是那10000个员工之一来判断是否应该允许其进入这个设施或者进入这个办公楼。这是一个门禁系统允许员工进入工作场所的门禁。

为什么两步法更好呢实际上有两个原因。

一是你解决的两个问题,每个问题实际上要简单得哆但第二,两个子任务的训练数据都很多具体来说,有很多数据可以用于人脸识别训练对于这里的任务1来说,任务就是观察一张图找出人脸所在的位置,把人脸图像框出来所以有很多数据,有很多标签数据(x,y)其中x是图片,y是表示人脸的位置你可以建立一个神经網络,可以很好地处理任务1

然后任务2,也有很多数据可用今天,业界领先的公司拥有比如说数百万张人脸照片,所以输入一张裁剪嘚很紧凑的照片比如这张红色照片,下面这个今天业界领先的人脸识别团队有至少数亿的图像,他们可以用来观察两张图片并试图判断照片里人的身份,确定是否同一个人所以任务2还有很多数据。相比之下如果你想一步到位,这样(x,y)的数据对就少得多其中x是门禁系统拍摄的图像,y是那人的身份因为你没有足够多的数据去解决这个端到端学习问题,但你却有足够多的数据来解决子问题1和子问题2

實际上,把这个分成两个子问题比纯粹的端到端深度学习方法,达到更好的表现不过如果你有足够多的数据来做端到端学习,也许端箌端方法效果更好但在今天的实践中,并不是最好的方法

我们再来看几个例子,比如机器翻译传统上,机器翻译系统也有一个很复雜的流水线比如英语机翻得到文本,然后做文本分析基本上要从文本中提取一些特征之类的,经过很多步骤你最后会将英文文本翻譯成法文

因为对于机器翻译来说的确有很多(英文,法文)的数据对端到端深度学习在机器翻译领域非常好用,那是因为在今天可以收集x-y对嘚大数据集就是英文句子和对应的法语翻译。所以在这个例子中端到端深度学习效果很好。

最后一个例子比如说你希望观察一个孩孓手部的X光照片,并估计一个孩子的年龄

你知道,当我第一次听到这个问题的时候我以为这是一个非常酷的犯罪现场调查任务,你可能悲剧的发现了一个孩子的骨架你想弄清楚孩子在生时是怎么样的。事实证明这个问题的典型应用,从X射线图估计孩子的年龄是我想太多了,没有我想象的犯罪现场调查脑洞那么大结果这是儿科医生用来判断一个孩子的发育是否正常。

处理这个例子的一个非端到端方法就是照一张图,然后分割出每一块骨头所以就是分辨出那段骨头应该在哪里,那段骨头在哪里那段骨头在哪里,等等然后,知道不同骨骼的长度你可以去查表,查到儿童手中骨头的平均长度然后用它来估计孩子的年龄,所以这种方法实际上很好

相比之下,如果你直接从图像去判断孩子的年龄那么你需要大量的数据去直接训练。据我所知这种做法今天还是不行的,因为没有足够的数据來用端到端的方式来训练这个任务

你可以想象一下如何将这个问题分解成两个步骤,第一步是一个比较简单的问题也许你不需要那么哆数据,也许你不需要许多X射线图像来切分骨骼而任务二,收集儿童手部的骨头长度的统计数据你不需要太多数据也能做出相当准确嘚估计,所以这个多步方法看起来很有希望也许比端对端方法更有希望,至少直到你能获得更多端到端学习的数据之前

所以端到端深喥学习系统是可行的,它表现可以很好也可以简化系统架构,让你不需要搭建那么多手工设计的单独组件但它也不是灵丹妙药,并不昰每次都能成功

在下一个笔记中,我想与你分享一个更系统的描述什么时候你应该使用或者不应该使用端到端的深度学习,以及如何組装这些复杂的机器学习系统

查题解析答案参考同时提供大學网课,选修课 公务员外语类,财会类建筑类,职业资格学历考试,医药类外贸类,计算机类等考试;是一个集资料下载与在线栲试系统、,是各类考生顺利通过考试的好帮手!

问题:请就本学期的课程学习写一段心得体会(不少于400字)

问题:.在蒙语中,下摆加襕の袍被称为( )

问题:植物组织培养中的液体培养又可分为( )。

问题:【多选题】以下属于联想思维分类的有( )

问题:中性点不接地系统出现单相接地故障时,单相接地故障电流为正常运行时每相对地电容电流的( )倍

问题:Excel的主要功能是( )。

问题:下列属于墨家思想的是哪些?()

问题:红霉素常见的不良反应是

问题:患者女32岁。因宫外孕造成失性休克入院该患者的卧位应为

问题:在Word2010编辑状态丅,绘制文本框命令按钮所在的选项卡是

问题:中国大学MOOC: 当归生姜羊肉汤适用于( )体质

问题:积极进取的人生态度有助于人生价值的實现。下列选项中属于积极进取的人生态度的有(  )。

问题:阅读材料其推理过程是()。【凡损害林木所有者利益的东西就是有害嘚所以,如果法的后果不会给林木所有者带来好处那么,这就是有害的后果在这里,利益是很有眼力的以前肉眼看得见的东西它看不见,现在甚至只有用显微镜才看得清楚的东西它却看见了整个世界都是它的眼中钉,都是一个充满危险的世界因为世界并不是一種利益的世界,而是许多种利益的世界私人利益把自己看作是世界的最终目的。因此如果法不实现这个最终目的,那就是不合目的的法因此,对私人利益有害的法就是具有有害后果的法】——卡尔·马克思,《关于林木盗窃法的辩论》

问题:N型半导体主要依靠(________)載流子导电。

问题:在Windows中,若一个程序长时间不响应用户要求,为结束该任务,应使用“Alt”+“Ctrl”+“Del”

问题:婚姻家庭关系的性质是由其社会性和洎然性决定的

问题:就业协议( )替代劳动合同,( )确定劳动关系的凭证

问题:【单选题】是计算机软件绘制的图形

问题:【单选題】健康应该包括几部分()

问题:简述外墙脚手架工程量的计算规则?

问题:园林植物具有哪些生态功能作用( )

问题:校核如图所礻结构中铆钉的剪切强度,剪切面积是( )

问题:已知产量为500时,平均成本为2元当产量增加到550时,平均成本等于2.5元在这一产量变囮范围内,边际成本( )

问题:基督教领圣体仪式又叫弥撒

问题:单选(2分) 我国宪法确立的基本制度不包括( )。

问题:单选(2分) 小动物常鼡的洗眼液为

问题:关于园林的水体建造下列说法正确的是()。

问题:【单选题】大量信息以文件的形式存储在计算机的内存中如哬对这些文件进行统一的管理也是操作系统非常重要的功能之一。

问题:完整的市场调查方案必须包含一些必要的内容且这些内容不是獨立的,之间有着内在的逻辑关系在设计时需要遵循一定流程来完成()(1.0分)

问题:( )是针灸学发展史上较为活跃的时期,创立了豐富的针刺手法对于没有归经的穴位进行归纳而形成“奇穴”。

问题:从热力学上讲葡萄糖的哪一种构象更稳定:

问题:截平面平行於圆锥的轴线截切时,和圆锥面的截交线为抛物线

问题:Java语言规定标识符由字母、下划线、美元符号和数字组成,并且第一个字符不能昰___________

问题:着手做,承担,v.(1.0分)

问题:单选(1分) 操纵量选择原则下面哪种说法不合理

问题:【单选题】电工技术和电子技术的区别是什么? 电工技术就是强电对人体有伤害;电子技术就是弱电,对人体无伤害

问题:智慧职教: 患者从高坡上跌落,四肢不能活动 检查:手骨间肌、蚓状肌无力,肱三头肌腱反射消失 双下肢瘫痪,损伤肢体运动和温痛觉丧失但本体感觉仍存在。 为何种综合征

问题:智慧职敎: 心源性休克发病的中心环节是

问题:以下哪项不是卢刚事件反映的典型问题( )

问题:关于生殖崇拜区域的正确答案是:

问题:有关钢管外脚手架的搭设高度正确的是( )

问题:党的十八大号召全党要坚定中国特色社会主义的“三个自信”。这“三个自信”具体是指

我要回帖

更多关于 社会学指的是什么 的文章

 

随机推荐