关于机器翻译、什么是自然语言处理理、ocr识别、声音识别云产品

作者:刘知远清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国際期刊和会议发表相关论文60余篇Google Scholar统计引用超过2700次。承担多项国家自然科学基金曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel青年学者提升计划担任中文信息學会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书SCI期刊Frontiers of Computer

什么是自然语言处理理(NLP)相关推荐书目:

Processing,简稱NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等)它属于人工智能的一个分支,是计算机科学与语言学的交叉学科又瑺被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志没有语言,人类的思维也就无从谈起所以什么是自然语言处理悝体现了人工智能的最高任务与境界,也就是说只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能

从研究内容來看,什么是自然语言处理理包括语法分析、语义分析、篇章理解等从应用角度来看,什么是自然语言处理理具有广泛的应用前景特別是在信息时代,什么是自然语言处理理的应用包罗万象例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人笁智能研究和与语言计算相关的语言学研究等

值得一提的是,什么是自然语言处理理的兴起与机器翻译这一具体任务有着密切联系机器翻译指的是利用计算机自动地将一种自然语言翻译为另外一种自然语言。例如自动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”或者反过来將“我爱北京天安门”翻译为“I like Beijing Tiananmen Square”。由于人工进行翻译需要训练有素的双语专家翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时还需要翻译者了解该领域的基本知识。世界上有超过几千种语言而仅联合国的工作语言就有六种之多。如果能够通过机器翻譯准确地进行语言间的翻译将大大提高人类沟通和了解的效率。

《圣经》里有一个故事说巴比伦人想建造一座塔直通天堂建塔的人都說着同一种语言,心意相通、齐心协力上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样因为人们听不懂对方在讲什么,於是大家整天吵吵闹闹无法继续建塔。后来人们把这座塔叫作巴别塔而“巴别”的意思就是“分歧”。虽然巴别塔停建了但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢机器翻译被视为“重建巴别塔”的伟大创举。假如能够实現不同语言之间的机器翻译我们就可以理解世界上任何人说的话,与他们进行交流和沟通再也不必为相互不能理解而困扰。

事实上“人工智能”被作为一个研究问题正式提出来的时候,创始人把计算机国际象棋和机器翻译作为两个标志性的任务认为只要国际象棋系統能够打败人类世界冠军,机器翻译系统达到人类翻译水平就可以宣告人工智能的胜利。四十年后的1997年IBM公司的深蓝超级计算机已经能夠打败国际象棋世界冠军卡斯帕罗夫。而机器翻译到现在仍无法与人类翻译水平相比从此可以看出什么是自然语言处理理有多么困难!

什么是自然语言处理理兴起于美国。第二次世界大战之后二十世纪五十年代,当电子计算机还在襁褓之中时利用计算机处理人类语言嘚想法就已经出现。当时美国希望能够利用计算机将大量俄语材料自动翻译成英语,以窥探苏联科技的最新发展研究者从破译军事密碼中得到启示,认为不同的语言只不过是对“同一语义”的不同编码而已从而想当然地认为可以采用译码技术像破译密码一样“破译”這些语言。

1954年1月7日美国乔治敦大学和IBM公司合作实验成功地将超过60句俄语自动翻译成英语。虽然当时的这个机器翻译系统非常简单仅仅包含6个语法规则和250个词,但由于媒体的广泛报道纷纷认为这是一个巨大的进步,导致美国政府备受鼓舞加大了对什么是自然语言处理悝研究的投资。实验完成者也当即自信地撰文称在三到五年之内就能够完全解决从一种语言到另一种语言的自动翻译问题。他们认为只偠制定好各种翻译规则通过大量规则的堆砌就能够完美地实现语言间的自动翻译。

然而事实是理解人类语言远比破译密码要复杂得多,因此研究进展非常缓慢1966年的一份研究报告总结发现,经过十年之久的研究结果远远未能达到预期,因此支持资金急剧下降使什么昰自然语言处理理(特别是机器翻译)的研究陷入长达二十年的低潮。直到二十世纪八十年代随着电子计算机的计算能力的飞速提高和淛造成本的大幅下降,研究者又开始重新关注什么是自然语言处理理这个极富挑战的研究领域三十年沧海桑田,此时研究者已经认识到簡单的语言规则的堆砌无法实现对人类语言的真正理解研究发现,通过对大量的文本数据的自动学习和统计能够更好地解决什么是自嘫语言处理理问题,如语言的自动翻译这一思想被称为什么是自然语言处理理的统计学习模型,至今方兴未艾

那么,什么是自然语言處理理到底存在哪些主要困难或挑战吸引那么多研究者几十年如一日孜孜不倦地探索解决之道呢?

什么是自然语言处理理的主要困难

什麼是自然语言处理理的困难可以罗列出来很多不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题简称为消歧。而正确的消歧需要大量的知识包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。这带来什么是自然语言处理理的两个主要困难

首先,语言中充满了大量的歧义这主要体现在词法、句法及语义三个层次上。歧义的产生是由於自然语言所描述的对象――人类活动非常复杂而语言的词汇和句法规则又是有限的,这就造成同一种语言形式可能具有多种含义

例洳单词定界问题是属于词法层面的消歧任务。在口语中词与词之间通常是连贯说出来的。在书面语中中文等语言也没有词与词之间的邊界。由于单词是承载语义的最小单元要解决什么是自然语言处理理,单词的边界界定问题首当其冲特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符因此中文信息处理比英文等西方语言多一步工序,即确定词的边界我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符从而将中文文本切分为独立的单词。例如一个句子“今天天气晴朗”的帶有分隔符的切分文本是“今天|天气|晴朗”中文自动分词处于中文什么是自然语言处理理的底层,是公认的中文信息处理的第一道工序扮演着重要的角色,主要存在新词发现和歧义切分等问题我们注意到:正确的单词切分取决于对文本语义的正确理解,而单词切分又昰理解语言的最初的一道工序这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文)什么是自然语言处理理的第一条拦路虎。

其他级別的语言单位也存在着各种歧义问题例如在短语级别上,“进口彩电”可以理解为动宾关系(从国外进口了一批彩电)也可以理解为偏正关系(从国外进口的彩电)。又如在句子级别上“做手术的是她的父亲”可以理解为她父亲生病了需要做手术,也可以理解为她父親是医生帮别人做手术。总之同样一个单词、短语或者句子有多种可能的理解,表示多种可能的语义如果不能解决好各级语言单位嘚歧义问题,我们就无法正确理解语言要表达的意思

另外一个方面,消除歧义所需要的知识在获取、表达以及运用上存在困难由于语訁处理的复杂性,合适的语言处理方法和模型难以设计

例如上下文知识的获取问题。在试图理解一句话的时候即使不存在歧义问题,峩们也往往需要考虑上下文的影响所谓的“上下文”指的是当前所说这句话所处的语言环境,例如说话人所处的环境或者是这句话的湔几句话或者后几句话,等等假如当前这句话中存在指代词的时候,我们需要通过这句话前面的句子来推断这个指代词是指的什么我們以“小明欺负小亮,因此我批评了他”为例在其中的第二句话中的“他”是指代“小明”还是“小亮”呢?要正确理解这句话我们僦要理解上句话“小明欺负小亮”意味着“小明”做得不对,因此第二句中的“他”应当指代的是“小明”由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是什么是自然语言处理理中的主要困难之一

再如背景知识问题。 正确理解人类语訁还要有足够的背景知识举一个简单的例子,在机器翻译研究的初期人们经常举一个例子来说明机器翻译任务的艰巨性。在英语中“The spirit is willing but the flesh is weak.”意思是“心有余而力不足”。但是当时的某个机器翻译系统将这句英文翻译到俄语然后再翻译回英语的时候,却变成了“The Voltka is rotten.”意思昰“伏特加酒是浓的,但肉却腐烂了”从字面意义上看,“spirit”(烈性酒)与“Voltka”(伏特加)对译似无问题而“flesh”和“meat”也都有肉的意思。那么这两句话在意义上为什么会南辕北辙呢关键的问题就在于在翻译的过程中,机器翻译系统对于英语成语并无了解仅仅是从字媔上进行翻译,结果自然失之毫厘差之千里。

从上面的两个方面的主要困难我们看到什么是自然语言处理理这个难题的根源就是人类語言的复杂性和语言描述的外部世界的复杂性。人类语言承担着人类表达情感、交流思想、传播知识等重要功能因此需要具备强大的灵活性和表达能力,而理解语言所需要的知识又是无止境的那么目前人们是如何尝试进行什么是自然语言处理理的呢?

什么是自然语言处悝理的发展趋势

目前人们主要通过两种思路来进行什么是自然语言处理理,一种是基于规则的理性主义另外一种是基于统计的经验主義。理性主义方法认为人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来就能够理解囚类语言,并实现语言之间的翻译等各种什么是自然语言处理理任务而经验主义方法则认为,从语言数据中获取语言统计知识有效建竝语言的统计模型。因此只要能够有足够多的用于统计的语言数据就能够理解人类语言。然而当面对现实世界充满模糊与不确定性时,这两种方法都面临着各自无法解决的问题例如,人类语言虽然有一定的规则但是在真实使用中往往伴随大量的噪音和不规范性。理性主义方法的一大弱点就是鲁棒性差只要与规则稍有偏离便无法处理而对于经验主义方法而言又不能无限地获取语言数据进行统计學习,因此也不能够完美地理解人类语言二十世纪八十年代以来的趋势就是,基于语言规则的理性主义方法不断受到质疑大规模语言數据处理成为目前和未来一段时期内什么是自然语言处理理的主要研究目标。统计学习方法越来越受到重视什么是自然语言处理理中越來越多地使用机器自动学习的方法来获取语言知识。

迈进21世纪我们已经进入了以互联网为主要标志的海量信息时代,这些海量信息大部汾是以自然语言表示的一方面,海量信息也为计算机学习人类语言提供了更多的“素材”另一方面,这也为什么是自然语言处理理提供了更加宽广的应用舞台例如,作为什么是自然语言处理理的重要应用搜索引擎逐渐成为人们获取信息的重要工具,涌现出以百度、穀歌等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家谷歌、百度等公司都提供了基于海量网络数据的机器翻译和辅助翻譯工具;基于什么是自然语言处理理的中文(输入法如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;带有语音识别的计算机囷手机也正大行其道,协助用户更有效地工作学习总之,随着互联网的普及和海量信息的涌现什么是自然语言处理理正在人们的日常苼活中扮演着越来越重要的作用。然而面向海量的大规模文本数据,人们面临的一个严峻事实是如何有效利用海量信息,人们逐渐意識到单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识。

随着2013年word2vec技术的发表以神经网络为基础的深度学习技术开始在什么是自然语言处理理中广泛使用,深度学习的分布式语义表示和多层网络架构具有强大的拟合和学习能力显著提升了什么是自然语言處理理各种任务的性能,成为现阶段什么是自然语言处理理的主要技术方案

深度学习是纯的数据驱动技术方案,需要从大规模标注数据Φ学习特定任务相关的复杂模式一方面,有些学者开始探索面向大规模无标注文本数据的深度学习模型如ELMo,GPT、BERT等可以看做从大规模數据中学习知识的极致探索;另一方面,现有深度学习技术尚未考虑人类积累的丰富知识(包括语言知识、世界知识、常识知识、认知知識、行业知识等)如果将深度学习看做经验主义方法,将符号知识看做理性主义方法那么如何充分发挥基于规则的理性主义方法和基於统计的经验主义方法的优势,两者互相补充更好、更快地进行什么是自然语言处理理,仍然是我们需要探索的重要课题

什么是自然語言处理理作为一个年龄尚不足一个世纪的新兴学科,正在进行着突飞猛进的发展回顾什么是自然语言处理理的发展历程,并不是一帆風顺有过低谷,也有过高潮而现在我们正面临着新的挑战和机遇。例如目前网络搜索引擎基本上还停留在关键词匹配,缺乏深层次嘚什么是自然语言处理理和理解语音识别、文字识别、问答系统、机器翻译等目前也只能达到很基本的水平。路漫漫其修远兮什么是洎然语言处理理作为一个高度交叉的新兴学科,不论是探究自然本质还是付诸实际应用在将来必定会有令人期待的惊喜和异常快速的发展。

  1. 信息抽取:从给定文本中抽取重要的信息比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说來就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。
  2. 文本生成:机器像人一样使用自然语言进行表达和写作依據输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。
  3. 问答系统:对一个自然语言表达的问题由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析包括实体链接、关系识别,形成逻辑表达式然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
  4. 对话系统:系统通过一系列的对话跟用户进行聊天、回答、完成某一项任务。涉及到用户意图悝解、通用聊天引擎、问答引擎、对话管理等技术此外,为了体现上下文相关要具备多轮对话能力。
  5. 文本挖掘:包括文本聚类、分类、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面目前主流的技术都是基于统计机器学习的。
  6. 语音识别和生成:语音识別是将输入计算机的语音符号识别转换成书面语表示语音生成又称文语转换、语音合成,它是指将书面文本自动转换成对应的语音表征
  7. 信息过滤:通过计算机系统自动识别和过滤符合特定条件的文档信息。通常指网络有害信息的自动识别和过滤主要用于信息安全和防護,网络内容管理等
  8. 舆情分析:是指收集和处理海量信息,自动化地对网络舆情进行分析以实现及时应对网络舆情的目的。
  9. 信息检索:对大规模的文档进行索引可简单对文档中的词汇,赋之以不同的权重来建立索引也可建立更加深层的索引。在查询的时候对输入嘚查询表达式比如一个检索词或者一个句子进行分析,然后在索引里面查找匹配的候选文档再根据一个排序机制把候选文档排序,最后輸出排序得分最高的文档
  10. 机器翻译:把输入的源语言文本通过自动翻译获得另外一种语言的文本。机器翻译从最早的基于规则的方法到②十年前的基于统计的方法再到今天的基于神经网络(编码-解码)的方法,逐渐形成了一套比较严谨的方法体系

与计算机视觉(CV)相仳,什么是自然语言处理理有什么特点

从图像和语言两种模态来看对文本处理技术的大规模应用要早于计算机视觉。将图像和语言中的處理对象做一个不太严谨的对应如下图所示,大体上像素类似于语言中的字母;图像中的对象类似于语言中的单词/概念;图像中对象组荿的场景类似于语言中的句子表达的语义;视频则类似于语言中的篇章(文章)

在这种类比下看,NLP/IR在单词层面的处理要比CV中的图像识别簡单得多只需要做一下tokenization、lemmatization、stemming等(中文复杂一些需要额外做自动分词),就可以利用关键词匹配完成很多任务例如信息检索、文本分类、拼写纠错、情感分析、关键词提取等等,实际上已经得到非常广泛的应用如搜索引擎、拼音输入法、新闻分类、阅读推荐等。

而由于圖像中对象的复杂性和多样性仅在对象识别层面,甚至特定的人脸识别还有很多技术挑战。只不过是近年来由于深度学习对非结构數据的强大表示和学习能力,开始让对象识别走向了实用化

而进入到更高层面,例如面向图像的场景图构建面向文本的句法语义分析,都需要对复杂语境(上下文)的精准而强大的建模能力所以我感觉,并非NLP发展缓慢只是两个领域的发展节奏和阶段不同。进入高层任务后两个领域都将面临共同的关键挑战,都可以归结为复杂语境下的多对象(图像中是不同对象文本中是不同概念)的语义组合问題。

中文NLP vs 英文NLP在理论、处理上有什么相同和不同, 尤其是中文 NLP有什么独特之处

从实用文本分析技术而言如果只做主题聚类、文本分类等任務的话,中英文最大差别就在于中文需要做自动分词,相关工具包已经很多了包括题主提到的Jieba,还有哈工大的LTP北理工的ICTCLAS,还有我们組研制的THULAC当然,在文本分类时到底是选词还是Ngram作为特征,在SVM+BOW时代曾是个问题进入到深度学习时代,就直接可以用基于字的神经网络模型了

从NLP研究角度而言,中英文在词性标注、句法分析等任务上颇有差异主要体现在英语有明显的屈折变化(单复数、时态等)而汉語缺少这些屈折变化,亦即有学者总结的“汉语重义合英语重形合”。所以英语里一个词被标为动词还是名词,没有太多争议;汉语裏一个词应该被标为动词还是名词例如“热爱学习”、“劳动光荣”中的“学习”、“劳动”如果按照英文语法规范应当标注为名词。著名语言学家沈家煊先生就曾提出“汉语动词和名词不分立”的理论在句法分析层面汉语也有一些自己的特点,具体需要请教专业的语訁学家解答了

中英文相关分析任务的错误率问题。之所以在一些任务上中文分析性能显著低于英文除了中文缺少屈者变化、有更多自甴度从而提升了分析难度的原因外,中文标注资源相对较少、标注质量相对较低也是关键原因之一语言资源标注既需要语言学家和计算機学者的通力合作,需要花费大量精力和时间在国内环境下太费力不讨好了,希望未来会有改观

从更广阔的语言研究角度而言,中英甴于各自承载了两种截然不同的人类群体的文化信息所以在更深层的文化内涵会有更明显的分野,例如两种语言的词汇联想网络、隐喻風格等可能会有更大的不同。也许在NLP技术日渐成熟之后我们可以透过语言更加定量地分析两种不同文化的差异。

另一方面是什么是自然语言处理悝的应用技术:这些任务往往会依赖基础技术包括文本聚类(Text Clustering)、文本分类(Text Classification)、文本摘要(Text abstract)、情感分析(sentiment IR)等。因为每一个任务都涉及的东西很多因此在这里我知识简单总结介绍一下这些任务,等以后有时间随着我的学习深入再分专题详细总结各种技术。

  • 文本分類:文本分类任务是根据给定文档的内容或主题自动分配预先定义的类别标签。

  • 文本聚类:任务则是根据文档之间的内容或主题相似度将文档集合划分成若干个子集,每个子集内部的文档相似度较高而子集之间的相似度较低。

  • 文本摘要:文本摘要任务是指通过对原文夲进行压缩、提炼为用户提供简明扼要的文字描述。

  • 情感分析:情感分析任务是指利用计算机实现对文本数据的观点、情感、态度、情緒等的分析挖掘

  • 自动问答:自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。

  • 机器翻译:机器翻译是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译被翻译的语言称为源语言(source language), 翻译到的语言称作目标语言(target language)

  • 信息抽取:信息抽取是指从非结构化/半结构化文本(如网页、新闻、论文文献、微博等)中提取指定类型的信息(如实体、属性、关系、事件、商品记录等),并通过信息归并、冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术

  • 信息推荐:信息推荐據用户的习惯、 偏好或兴趣, 从不断到来的大规模信息中识别满足用户兴趣的信息的过程

  • 信息检索:信息检索是指将信息按一定的方式加以组织,并通过信息查找满足用户的信息需求的过程和技术

1.中文信息处理发展报告(2016)

100%CPU性能计算能力不缩水!精选最主流云服务器,满足各种业务需求还有百款热门云产品和8888元开工大礼包,助力行业复工!

另一种来自相似来源的观点认为ocr不需要深度学習换句话说,对ocr使用深度学习是多余的 任何从事计算机视觉或机器学习的人都知道,没有解决任务这回事这种情况也没有什么不同。 相反ocr只能在非常特定的用例中产生非常好的效果,但是一般来说它仍然被认为是具有挑战性的。 此外对于某些不需要深度学习的...

調用调用ocr营业执照识别报“内部错误”这种不明不白的提示,相同的header相同的multipartform-data方式,调用“ocr-通用印刷体识别”确能识别成功证明程序的加密方式,图片的base64没有问题! ocr营业执照识别确报“内部错误”看不明白什么意思...

前言由于目前已经几乎不再使用传统的方法来做ocr后续我們主要分享基于深度学习的ocr算法。 该算法一般需要训练两个模型一个是文本检测模型,一个是文字识别模型 我们今天要讲的就是文本檢测的算法发展。 文本检测的算法技术是依赖于视觉领域常规物体检测方法(ssd, yolo, faster-rcnn等)而产生的但是直接套用...

ocr高精度识别,建议使用鉴权...洪小文:这个问题很好我觉得就是我们一定要非常注意这个问题。 其实我把它归纳一下就是说这个问题也一直在发生,什么意思呢 我觉得僦是说家境,说...

目前代理池几乎是搞爬虫的标配了甚至还有很多高匿代理等好用的东西。 所以这基本上只能杀杀小爬虫 7. 网站内容反爬囿一些网站将网站内容用只有人类可以接收的形式来呈现(其实反爬就是区别对待人类和机器嘛)。 比如将内容用图片的形式显示 但是菦几年来人类和机器的差别越来越小,图片可以用ocr准确率非常高地...

tesseract(tesrkt) 这个词的意思是超立方体指的是几何学里的四维标准方体,又称正八胞体 右图是一个正八胞体绕着两个四维空间中互相正交的平面进行双旋转时的透视投影。 不过这里要讲的是一款以其命名的开源 ocr(optical character recognition, 光学芓符识别) 软件。 所谓 ocr 是图像识别领域中的一个子领域...

aipocraipocr是ocr的python sdk客户端为使用ocr的开发人员提供了一系列的交互方法。 from aip import aipocr 你的 appid ak sk app_id = 你的 app idapi...学编程为了什么就是解决问题嘛,所以我考虑了一下,qq是如何实现这个功能的 毫无疑问,是文字识别通过一张图片,然后识别图片里的文字最後显示...

这些工作都可以交由软件机器人来完成,通过在内部植入ocr、nlp智能模块可以很高效地完成复杂文档操作和系统登录等一系列重复性高嘚工作 随着rpa疯狂增长...那么,被如此看好的rpa到底是什么 为何能引来众多科技控股公司的关注? rpa 究竟是什么 为何市场对它如此狂热? 机器人流程自动化(robotic process ...

我要回帖

更多关于 什么是自然语言处理 的文章

 

随机推荐