新人奖励注册奖励怎么可以获得?jqian的活动怎么样?

原标题:“数据科学”首倡者吴建福访谈

V. Roshan Joseph是佐治亚理工学院斯图尔特(Stewart)工业与系统工程系教授

Wu)于一九四九年一月十五日出生在中国台湾。他于一九七一年获得台湾夶学理学学士学位一九七六年获得美国加州大学伯克利分校统计学博士学位。他曾在美国威斯康星大学麦迪逊分校(一九七七至一九八仈年)、滑铁卢大学(一九八八至一九九三年)、密歇根大学(一九九五至二零零三年;一九九五至一九九八年担任系主任)任教目前昰佐治亚理工学院工业与系统工程系的可口可乐讲席教授。他著名的研究工作有EM算法的收敛性、重抽样方法、非线性最小二乘法、敏感性试验和工业统计学等其中包括实验设计、稳健参数设计和计算机实验,以及早在一九九七年由他首创、现已得到公认的“数据科学”这一术语

建福(Jeff)获得了多项大奖,包括统计学会主席委员会(COPSS)总统奖(一九八七年译者注:这是全球统计学四十岁以下学者的朂高成就奖,由国际数理统计学会和北美四大统计学会合办每年一位。被比作统计学界的“Fields Medal”)、Shewhart奖章(二零零八年译者注:这是美國质量学会为该领域的杰出领袖人物而设立的最高奖励,面向全球每年一人)、R.A.Fisher讲座(二零一一年,译者注:这是全球统计学镓终身成就的最高奖项每年1人)和Deming讲座奖(二零一二年,译者注:这是国际工业商务统计与管理科学界的最高奖项每年1人)。他是中國台湾“中央研究院”院士(当选于二零零零年)和美国国家工程院院士(当选于二零零四年)并获得了许多其他奖项和荣誉,包括滑鐵卢大学的荣誉博士学位

迄今为止,建福已经指导了四十五名博士生其中许多人是统计科学领域十分活跃的研究人员。他发表了一百七十多篇评审论文和两本书籍他是《中华统计学杂志(Statistica Sinica)》的第二任主编(一九九三至一九九六年)。建福在一九七九年和苏珊·张(Susan Chang)结婚他们有两个孩子,Emily 和 Justin

工业统计、数据科学、实验设计、计算机实验、EM算法、重抽样方法。

Joseph(以下简记为J):请告诉我们你早期嘚训练和职业

Wu(以下简记为W):我在台湾出生长大。总的来说我在那里的生活很快乐,平静祥和教育几乎是免费的。

我高中毕业时面临第一个选择。我应该选择历史还是数学专业我对历史很感兴趣,很容易地记住历史事件能毫不费力地把它们连接起来。我也喜歡地理这些特性都与成为一名历史学家相关。然而我决定不学习历史,因为历史可能与政治相关

所以我选择了数学。我对这个专业哃样充满热情一九七六年,我考上了台湾大学的数学专业大多数指导老师都缺乏经验。我给你举个例子在那个时候,作为大学二年級学生我们学习了“三高”(台湾和世界各地都这样称呼):高等代数、高等分析和高等几何。这三门课程的所有指导老师都只有台湾夶学的硕士学位他们可能只比学生们多了解那么一点点。好在我们的教科书都是用英语写的,而且都是美国或欧洲最好的作者写的這些书是我真正的老师。在那段时间里我的同学们都有很高的积极性,而且学习非常努力请注意,那是一个快速变化的年代--台湾正在飛速发展学生们自己举办讨论班,我们经常选择超出我们水平的教科书所以,尽管我们不能理解所有内容但我们热情高涨。

图1: 读高Φ时的吴建福, 一九六六年.

Chipman(以下简记为C):学生们选择讨论班

W:是的。它甚至不是一门学分课程但我们还是做了。尽管大学不能提供呔多的师资或设施我们还是做得很好。现在的学习环境好多了台湾的教授大多有西方国家顶尖大学的博士学位。

C:你是如何被统计学吸引的

W:我在大学本科时始终喜欢数学。但在大四的时候我有幸见到了周元燊(Y.S.Chow),当时他从哥伦比亚大学到台湾进行访问他主讲了一门概率论的研究生课程。我上了这门课而且是最好的学生。事实上我解决了他提出的一个问题。于是我把它写成了一篇论攵,提交给了《统计学年鉴(Annals of Statistics)》最终它被接受了。但我不知道的是他把我的论文还寄给了台湾“中央研究院”的一个新杂志(《数學研究所通报(Bulletin of the Institute of Mathematics)》)(Wu, 1973) 。我知道后就不得不撤回我的《统计学年鉴》论文因为它已经在这个新杂志上发表了。对于一个年轻人来说这是非常令人沮丧的。记住我当时还只是在攻读学士学位。然后我服了两年兵役因此,这是我简历上的第一篇论文

J:而那本来应當是一篇《统计学年鉴》论文......

W:但现在来看还好吧。那篇论文实际上让我有机会进入伯克利分校进行深造我是第一个从台湾本科直接到伯克利分校统计学专业并获得资助的学生,得到这个机会是不容易的我认为这不仅仅是因为高分,而且因为那篇论文

接触概率论让我能够探索统计学领域。我有两年在军队服役的经历即一九七一至一九七三年。当时我利用业余时间阅读了Ferguson 1967年《数理统计(Mathematical Statistics)》我解答叻练习中的所有问题,也许只有一个没有解答所以我知道我可以轻松地自学数理统计。我想我可能仍然保存着这本习题解答因为我搬镓时并没有把它扔掉。我阅读的第二本书是Cochran(科克伦)和 Cox (考克斯)的《实验设计(Experimental Design)》(1957)这更耐人寻味。它与 Ferguson 的书具有完全不同的風格我必须承认,我没有深刻理解这本书中的统计思想和方法论但我马上意识到这正是我所擅长。虽然当时我对统计学了解不多但峩喜欢其中方法论的直觉思维。

C:所以你很欣赏这本书的数学方面也能看到其中深刻的哲学思想。

W:是的这些观点正是统计学与数学嘚不同之处。我意识到了这一点但还无法阐明其原因。回想起来我认为我对历史的兴趣发挥了作用,并与我后来在统计学上的成功有關:历史经常给你一个不同的研究视角无论是现有的方法还是一个新的领域。

C:谁对你的研究工作产生了最重要的影响

W:有很多,简奣扼要我只提其中的三个。

我从统计学家George Box(博克斯)说起因为他代表了一个巨大的变化。当我还是伯克利分校的学生时我基本上是一名數理统计学家。我阅读了一些其他的研究工作但当时伯克利分校的整个培训更倾向于数学。我到了威斯康辛州之后立即受到了George Box的影响。他是一位伟大的学者也是一位伟大的教师。他对研究工作的看法和热情有感染力我从Box那里确实学到了Fisher的统计学观点以及Fisher的传统。他昰Fisher的女婿我和Box并不是很亲密的朋友。我总觉得对他有点害怕但我很尊敬他,所以即使我不同意他的意见,我也不会公开说些什么除非他非常严厉地攻击我。我就是那么尊敬他

下一个人是我的导师,Peter Bickel在他擅长的那些领域里,我从来没有做出过什么大事但是我想囙忆一些我的学生时代Bickel所做的某些事情,我对这些事情仍然记忆犹新在我读研究生的第二年,Bickel在休假所以我有一些空闲时间去四处看看和探索。我选修了Jack Kiefer主讲的一门最优设计课程当时他只在伯克利分校访问一个学期。然后我发现了一些研究问题。这些问题并不是来洎Kiefer但他的课程让我对最优设计感兴趣了。我自己找到了一个问题还有一个与Henry Wynn提出的问题相关的问题。当Bickel结束假期回来的时候我基本仩完成了这些研究工作。他给了我一个不同的问题是一个我不能解决的难题。于是带着些许不安,我向他展示了我在最优设计方面的笁作我有点担心。你知道这是一个大牌教授,而我做了一些完全不同的研究我一眼就看出他并没有生气。他很高兴我做了一些不是茬他的领域的新东西他还愉快地修改了我的英语。我非常感谢他这么支持我

C:所以他意识到你所做的工作的重要性。

多年以来Bickel和我荿为了好朋友,我是说老师和学生但也是好朋友。Bickel的职业标准和行为使他成为我应当效仿的榜样他是老一代的知识分子,而且他的学術水平很高与他谈话总是关于研究或其他知识上的内容。当我和他共进晚餐时整个晚上都是如此兴奋,因为我们谈论的话题从时事到哲学和历史和我一样,他对历史了解很多Bickel就是这样的人。

Kiefer之间的交往比较短暂他是一个有魅力的人,也是一位自成一派的伟大学者当我还是研究生二年级学生的时候,他访问伯克利一个学期他使我的研究方向转到最优设计。在我年轻的时候就被他的名字吸引了,那是因为数学但更重要的是,我相信人们必须做正确的设计因为首先必须正确地收集数据,然后才能进行推断我不知道我研究最優设计是不是一个好的决策,但这并不重要因为还很年轻,而且是做了令人兴奋的事情

这里讲一个故事。Kiefer实际上已经同意了讲授一门關于序贯分析的课程当我得知时,去拜访了他那时我还年轻,也许有些大胆甚至鲁莽我说:“其他人也可以教序贯分析。但是最優设计,你是奠基人是创造者。没有任何人能像你那样来讲授最优设计你愿意教这门课程吗?他有点吃惊但是,他还是非常友好哋欣然接受了他说:“好吧,我愿意但你得找到八个人来选修这门课程。”于是我就去找了八个人作为学分课程来选修这门课上课開始了,我想在几周之内八个人里面大约有四个退出了。但还有一些访问学者我记得有三位访问教授(Alistair Scott、Henry Wynn和另一位)坚持到了最后。所以有四个学生和三个访问学者学习了这门课程当然,我学到了很多东西

Jack Kiefer去世的时候很年轻,只有五十七岁他非常支持我,总是很願意回答我的问题或提供帮助我记得,有一次我在康奈尔大学访问期间我问过他这样一个问题:“我似乎在做不同的事情,不同的课題这是好事还是坏事?”他说:“如果这是你的天性告诉你要做的那就去做吧!”

C:当你在威斯康辛大学麦迪逊分校的时候,你的研究重点转到了工业统计和质量改进特别是实验设计和分析。在二十世纪八十年代麦迪逊分校的研究团队是怎样的?

W:麦迪逊分校有一個很好的研究环境有Box作为领导人。在工程统计方面还有其他一些关键人物,比如Bill Hunter、Norman draper和Brian Joiner我从他们那里学到了很多,我希望要是和他们匼作一篇论文就好了但我没有。那是我的成长岁月因为我从伯克利分校这个非常数学的环境到了威斯康星州,而后者在方法论和应用の间更加平衡在一九八三年至一九八五年期间,Taguchi的稳健参数设计方法进入了美国这对麦迪逊学派来说是一个新的挑战和机遇。一九七七年至一九八八年期间我就在麦迪逊

麦迪逊是我的幸运之地,不仅是因为我的职业生涯更重要的是,我遇到一位叫Susan Chang的年轻女士我们茬一九七九年结婚。我们的两个孩子Emily和Justin就出生在麦迪逊Susan给了我很多时间去从事我的工作,因为她看到了我受到终身职位的压力至少在開始阶段是这样。对于第一个孩子我很少帮她换尿布。我可不认为这是一件光彩的事

C:当你阅读Cochran和Cox的著作的时候就开始对实验设计产苼兴趣,而你的论文是关于最优设计的你的兴趣在麦迪逊分校期间发生了怎样的变化?

W:尽管我在伯克利分校的研究重点是最优设计峩还担任过一门研究生实验设计课程的助教。所以我自学了古典实验设计然而,是在麦迪逊分校我才真正开始欣赏Fisher的统计方法,其中包括实验设计就是在那里,我开始从事实验设计方面的主要研究工作那里的环境帮助了我。我比麦迪逊分校的其他人更偏重数学一点所以我的研究兴趣是多样的:我做了一些应用研究,而且我也做了一些非常数学的工作比如最小低阶混杂设计以及刀切法和自助法等偅抽样推断。

J:请分享在你重要工作背后的有趣故事好吗

W:我先从EM算法开始谈起。不知怎么的这篇论文(Wu, 1983)给了我很多的名声,雖然我不值得这些名声当我访问一些地方时,比如一个生物统计系人们可能不知道我的工作,但他们知道我就是那个EM小伙我并鈈是EM小伙,我只是碰巧做了一些证明

当时的情况是这样的:Persi Diaconis从斯坦福大学到威斯康星州进行访问。我第一次从他那里得知在著名嘚论文(Dempster, Laird and Rubin, 1977)里,繁琐的证明是错误的我阅读了这篇论文,很快意识到为什么证明是错误的我试图与王永雄(Wing Wong)合作来提供一个正确的證明。他在芝加哥大学但经常来麦迪逊分校。但是我们没有取得多少进展就放弃了

后来,我自己从新捡起这个问题有一个晚上,我清楚地记得:我正在照顾我的女儿Emily(图2)当时她还不到一岁。我一直在思考这个EM算法突然,我想到了在伯克利分校学到的一个萣理全局收敛定理。由于我已经在尝试用一个不同的方法来证明收敛性所以这个数学问题一直在我的脑海里,我立即领悟到二者之间嘚密切联系我离开Emily,跑上楼并开始写作。当时我都不知道她在楼下怎么样

图2, 吴建福与Emily在他们麦迪逊的家中, 一九八二年.

我怎么知道这個定理的?那是我在加州大学伯克利分校攻读博士学位的第三年当时我正在撰写论文,但没有多少进展我还需要多学一些优化方法,這大约占论文的一半于是我选修了电子工程系的一门课程。主讲老师使用了她的导师撰写的一本书她的导师是伯克利大学的电气工程與计算机科学系的一名教授。除了我们学过的标准内容之外这本书的前面部分有一个Zangwill 的结果,叫做“全局收敛定理”(Zangwill,1969)不知怎么的,我记得这个定理但在之前它一直隐藏在背后。一旦我意识到了这种联系我能在一周之内就写完了那篇收敛性论文。

这篇论文的发表遭到了一些挫折论文投到《统计学年鉴》被拒绝了。我很快意识到评审人是谁EM算法有很多前辈,如果有人声称“我证明了它”怹们会有自己的意见。一位评审人说:“不不,不它已经被证明了,”即使最初的证明是错误的我觉得很难对抗一个负面的决定,所以我又投到了美国工业和应用数学学会的《应用数学杂志》(SIAM Journal of Applied Mathematics)它也被拒稿了。我可以说至少一两个审稿人犯了错误他们说的是与《统计学年鉴》的评审同样的意见。

当时我是《统计学年鉴》的编辑委员会成员。出于某种原因我鼓起了勇气,写信给主编David Hinkley我写道,我觉得这篇论文没有得到恰当的对待我对审稿意见给了一个很长的答复,且改写了这篇论文而且我请求也许应该有一个新的编委来處理这篇论文。于是他把论文寄给了一个新的编委文章很快获得了回复,并且收到了非常正面的评价只作了一些细微的修正就被接受叻。这个新的编委知道证明这个定理的难度当你的论文被正确的人员审阅的时候,就会被接受这就是这篇论文发表前后的过山车历史。我总是告诉人们如果你真的相信某件事情,你就应该为它而战斗

J:现在,这是被引用最多的论文之一

W:是的,这是我的论文中被引用最多的一篇论文当然,也有其他人的论文有更多的引用我不会将EM算法列入我的五篇最原创的论文之中。我只是给出了一个证奣但不管怎样,它赋予了我早期的名声

在我真正的原创工作中,我想提另一个它有一个更有趣的故事。这是与Mike Hamada合作的关于复杂别名嘚论文发表在《质量技术期刊(Journal of Quality Technology)》上(Hamada and Wu, 1992)。很长一段时间以来我知道因子设计可以分为两种类型:正规的和非正规的。正规设计具囿很好的、轮廓鲜明的别名关系这是因为它的群论结构。对于其他类型的设计我用了“非正规”这个术语,例如在吴和Hamada合著的书里(Wu and Hamada 2000, Wu and Hamada 2009)。

我受到了那些涉及非正规设计的一些实际实验的挑战比如Taguchi方法普遍采用的18 次和36次实验的设计。一九八六年夏季我参加了由George Box、Vijay Nair、貝尔实验室的人员和其他人员组成的代表团(图3)去日本访问。我很清楚地记得有一天下午在名古屋,受到日本中央质量协会的接待所有的报告都是案例研究,而且使用的大多数正交表都是18次或36次试验几乎没有其他类型的设计,因为日本研究人员遵循Taguchi方法而这两種设计是Taguchi推荐的。如你所知田口方法从来没有提倡在数据分析中融入交互作用,所以这些分析也都没有考虑交互作用然而,一个一个嘚案例其结果是成功的,我也确信这些分析是正确的我在笔记中写道:“为什么?”我认为这可能与非规则设计的理论性质有关当伱做研究时,你需要有一个理论参考然后,当你看到一些现象时你就会把它放入那个框架中。

我回到了麦迪逊分校当时Mike Hamada是学校里的一個博士生我跟他说了这个想法,于是我们试着去做但没有取得多少进展。部分原因是他灰心了:他拜访了系里的一些教授非常有名嘚教授,他们都对这个想法嗤之以鼻他们说:"这些设计,包括Plackett-Burman设计都有复杂的别名,所以很难分析"

后来我们都到了加拿大,去了滑鐵卢但我还记得这个问题,因为我从来没有放弃过有一天,我又提起了这个话题Mike提醒我,当他做分析的时候他最终得到了很多、佷多的模型。通过观察计算机输出我们注意到了其中许多模型是不兼容的,它们包含交互作用却不包含父辈的主效应我们很快想到,洳果我们把这些排除出去结果会如何呢?那天晚上他重新做了分析第二天早上,当我见到他时他笑容满面。最后选择的模型显然是兩个真实应用中的最佳模型在我上实验设计课时,我提到了这种排除模型的新方法但我还没有想到一个好的名字。我告诉全班学生峩将给20加拿大元作为取一个好名字的奖励。在接下来的课堂上Randy Sitter想出了“效应遗传(effect heredity)”这个名字,于是我给了他20加拿大元

这个故事就昰这样。这篇论文大约有300个引用(谷歌学术)但是我不使用引用来评判研究工作。我认为我们应该注重论文思想的学术价值而不是引鼡数量。在这种情况下论文被顺利地接受了,但我们的发现之路是曲折的

这个故事的寓意是要意识到有一个参照系统。在日本听讲演時由于盛夏的炎热,我感到困倦当我听到了某些内容,我立刻清醒过来当你做研究时,你需要有好奇心但还需要有一个参照系统。如果你没有任何参照系统比如不知道设计有正规和非正规的两个类别,你可能就不会抓到这个机会因为我知道了这种分类,这是我嘚好奇心的参照系统直到后来,我才把这两个设计类别的想法写出来也是在“吴-Hamada”的书籍出版之后人们才将设计这样分类。

C:你对曆史和统计学两门学科都感兴趣但选择了统计学。你对历史的兴趣如何影响了你对统计学的看法

W:保持一个历史的视角对研究是有好處的。当我研究一个现有的方法时我通常知道谁已经做了什么,所以我可以很快把这些人和想法联系起来对于我的同龄人而言,我通瑺也知道他们的能力和个性也看到这些在他们的工作中的体现。重要的是要能够看到你所进行的研究的重要性以及如果过去的一些研究工作已经显示出其重要性,为什么是重要的这种观点将会给你一些想法去选择好的研究方向。

有些领域比其他领域具有更多的历史背景当我在做自助法方面的研究时,已经显示出其重要性了同样,刀切法和一般的重抽样推断也是重要的其他新的领域在开始的时候並不明显。对我来说开始时不明显的三个例子是最小低阶混杂设计、稳健设计和不确定性量化。对于一个新的领域你可能没有许多直接的参考文献,但是你有其他人所做的相关工作。你须要有能力将从前的工作与潜在的新工作联系起来并利用你的历史视角进行一些嶊测。

J:请给我们讲一讲你长期职业生涯中一些有趣的故事

W:好的,我有一些有趣的经历我这里说两个。

一九八八年我从威斯康星夶学到了滑铁卢大学。那时我还年轻不到四十岁,我的事业已经很成功一九八七年,我获得了统计学会主席委员会(COPSS)奖所以许多媄国朋友都很惊讶,因为美国是排名第一的地方为什么要去加拿大?当我在滑铁卢接受采访时我发现他们会给我一个非常独特的机会。滑铁卢大学将让我建立自己的研究小组这不是金钱的问题。

最后我在那里只待了五年,但是我指导了一些优秀的学生包括Hugh。对于這五年来我总是感到很温暖。这是非常有回报的五年我工作也非常努力。例如他们给了我一个很大的办公室,我还要了两个相邻的辦公室供我所有的学生使用没有其他教授能够这样。在加拿大极少有教授晚上还在办公室里工作,但在滑铁卢晚饭后,我会回到办公室去工作虽然我没有期望,但是我的很多学生也在办公室里工作我常跟他们交谈到晚上十一点钟。我做了一些与别人不同的事情洏该部门也给了我最大的支持。那是让人十分怀念的岁月

我的第二次经历有些不同。二零零三年我从密歇根大学转到了佐治亚理工学院。这里有很多吸引我的地方这里气候温暖。我在寒冷的地方里待了这么多年我对此感到有点厌倦。我发现在工程领域中建立一个统計学科是非常诱人和有趣的所以我决定试一试。我认为在某种意义上我已经成功了让我们把它放到历史的视角来看:我认为这是第一佽在工程学院里有了既大又成功的统计学科。当我在威斯康辛大学的时候George Box一直想在工程领域中设立统计学,但当时的时机不成熟在过詓,学术界有各自的领地由于Box具有化学背景,他试图在化学工程领域中建立统计学我认为那不是恰当的地方。在我看来只有在工业笁程领域才能设立统计学。与其他工程领域不同工业工程专家不做实验。工业工程专家、运筹学家和统计学家在数学方面有共同点数學将这些团队联合起来,使统计学有生存繁荣的空间例如,在佐治亚理工学院统计学家在工业工程领域中有自己的身份。有人可能会說:``计算机科学怎么样"我不认为在计算机科学领域能建立统计系。计算机科学的创业精神可能与统计学更具定量性的方法不相容

我发現,在工业工程领域中统计学的定位是非常重要的因为佐治亚理工学院工业工程里统计学团队的几乎每个成员都和物理科学、工程或信息技术方面有合作。我认为这是我对这个领域最重要的贡献之一统计学已经在其他院系里有了一席之地。在医学或公共卫生学院里有许哆生物统计项目在社会科学中也有一些统计项目。现在在机器学习方面,统计学和计算机科学之间也有了一些合作比如卡内基梅隆夶学,加州大学伯克利分校等等。在佐治亚理工学院我们的模式非常不同。我发现统计学作为工业工程而不是其他学院的一部分,昰非常令人满意的

C:你培养了很多学生。这在你的职业生涯中起了什么样的作用

图4, 吴建福及其一些学生以及学生的学生2014年7月在中国云喃庆祝吴建福六十五岁生日的一个会议上.

W:首先,我想说我是如何培养学生的我遵循中国的哲学“根据他们的能力来教学生”(因材施敎)。我不让我的学生相互竞争我不让下一个学生做上一个学生的延伸工作。如果他们做了他们会陷入争斗。我很高兴我的很多学生能在一起工作

我的学生在我的职业生涯中起到什么作用?显然最重要的是我看到他们成功而获得精神上的满足。我和他们中的许多人關系密切有些人会给我打电话咨询有关职业发展方面的建议:“我是否应该接受这个职位?”“我该如何进行谈判”我总是乐于给他們提供建议。

如果你有一群优秀的人在一个相关领域里工作,这有助于推进这个领域我来列举三个这样的领域。首先我在实验设计仩的工作,尤其是最小低阶混杂设计就是这样的。有好几个学生成为主要参与者另一个例子是我在工程统计方面的工作,有另一组学苼参与在我最近的关于计算机实验和不确定性量化的研究工作中,也有另一组学生这一组与工程统计学的那组有一些重叠。

J:你对《Φ华统计学杂志(Statistica Sinica)》的创建起到了重要作用请告诉我们这方面的故事好吗?

W:是的《中华统计学杂志》。背景是这样的一群华裔统计學家意识到他们的同龄人在统计研究方面有了很好的发展。芝加哥大学的刁锦寰(George Tiao)是这群人的领导我们认为有必要创建一个期刊,以亞洲研究人员作为主要贡献者而这样的期刊也可能对亚洲的研究产生影响。当我是第二任主编时我遵循了这个想法。我告诉我的编辑委员会我们的梦想就是使之成为亚洲的《生物计量(Biometrika)》,尽管这需要一个很长的时间才能实现这是我的口号。

我记得我们是怎么选择《Φ华统计学杂志》这个名称的我们在乔治(刁锦寰)家里开了整整一个下午的会议,试图选择一个名称“中国统计学杂志”似乎不太匼适。因此赵明德(Min-Te Chao)使用了拉丁语名称:“中华统计学杂志”。

“Sinica”比“Chinese”更加微妙每个人都跳了起来,说道:“就是这个名称了”当时赵明德是台湾统计科学研究所的所长。

我们过去没有现在也不希望这个杂志成为一个民族杂志。我想我们已经做到了:我们有佷多人在这个期刊上发表文章;对任何群体都没有偏好很明显,有很多中国作者但如今,在《统计学年鉴》、《美国统计协会杂志(JASA)》和《生物计量》上也有很多中国作者是吧,中国人大量涌入毕竟,中国有十三亿人口

C:还有Peter Hall彼得·霍尔)也做过主编。

W:是嘚没错。这是一个很好的例子

刁锦寰是创刊主编,而我是第二任主编我记得这是我工作中最繁忙的时间。从一九九五年到一九九八姩我同时要处理三件事情:编辑杂志、与Hamada一同撰写实验设计的书(第一版是650页)和担任密歇根统计系的系主任。我不知道我是怎么应付丅来的对我来说,帮助创办一份新杂志并使其成功比作为一个已经建立并名列前茅的杂志主编更有意义一般来说,一位主编想要对一個已经建立的杂志做出重大调整是非常困难的

C:如今的质量改进并不像二十世纪八十年代和九十年代那样备受瞩目。在工业领域诸如實验设计和分析、可靠性和工艺监测等核心技术是否仍然具有重要的作用?作为研究领域又如何

W:让我从实验设计和分析开始。我觉得实验设计和分析永远不会消逝。为什么因为这个领域总会有新的观点和工具出现以应对实践中提出的新挑战。让我们来看看历史:实驗设计起始于Fisher和他的合作者在农业上的工作然后,在化学工程领域里有George Box和威斯康辛学系。在二十世纪八十年代中期有Taguchi启发产生的质量笁程我认为,从一九九五年到二零零五年是实验设计和分析处于比较安静的一段时期但最近又显现出强大的生命力。

我想给出实验设計和分析中的两个新兴领域它们会给你提供一些关于实验设计如何能够成长并迎接挑战的想法。

第一个领域是计算机实验计算机实验采用空间填充设计,而这不同于因子设计或最优设计空间填充设计已经存在了很长一段时间。但最近有了空间填充设计的新类型,比洳嵌套设计它们是为多精度计算机实验开发的。在低精度下比在高精度下具有更多的点在高精度下,这些点是一个子集因此是嵌套式的。另一类设计被称为切片设计这是为具有定性和定量因素的计算机实验而开发的。对于定性因素你需要做切片。多精度设计和切爿设计的开创者都是钱智光(Peter

由于不确定性量化领域的迅速发展我认为将会有其他新方法出现,尤其是在高维度的情况我们知道应用數学家做不确定性量化的方法;他们使用稀疏网格。但是稀疏网格保留了张量积结构,即使是对于一个十维问题也需要很多点在实际問题中,比如设计一个燃烧系统有100至1000个输入变量。在这样非常高维度的情况没有方法来选择优良设计。你可以选择空间填充法但这鈈允许你进行快速计算。空间填充设计抛弃了张量积结构所以无法进行快速多项式近似。机器学习假设数据已经存在并且很廉价。但昰当数据非常昂贵的时候又如何呢在一些实际情况,有限元计算可能需要几周的时间来运行

C:这就提出了一个相关的问题。在计算机實验的设计中你认为是计算方法还是数学理论是产生设计的主要方法?或者两者都发挥作用

W:我觉得两者都发挥作用。我相信对于哽大型的设计,计算方法将会更重要一个很好的例子是Roshan最近的一项叫做Max-Pro的研究工作,它对高维度的设计可能是非常有用的(Joseph, Gul, and Ba 2015)然而,對于我刚才提到的非常高维度的挑战我认为深入的数学研究将是有必要的。具体说怎样保留某些能够进行正交多项式近似的张量积结構,同时又具有一些空间填充的性质或者,你利用Kriging法来对相关矩阵求逆但是这需要用一种巧妙的方式来求逆。我还没有如何解决这个問题线索我认为解决这个问题的好方法将不仅是计算机实验的一个重大进步,也是应用数学的一个重要进步

第二个实验设计和分析的噺兴方向的例子是全新的。它是为互联网或电子商务而设计的实验我刚开始在这个领域开展研究。我最近的一位博士生在他的论文里做叻简要的论述我知道,像谷歌、亚马逊和易趣(eBay)等公司都在使用实验设计和分析(DAE)我认为学者们可以做更基础的或更有影响力的笁作。我不去讲那些技术细节但在这种情况下,当客户进入网页时通常的目的是为了优化收益或提高转化率。你可以用因子结构来更妀网页设计但这要复杂得多。人们持续地访问页面所以这也是一个序贯设计的优化问题。业界目前使用随机规划等方法来解决这个问題我推测,在这个领域里实验设计和分析将与优化和机器学习密切结合。

再来谈谈可靠性这是你提到的工业统计的第二个领域。许哆人会说可靠性已经不活跃了,没有任何突破可能没有未来。我不同意最后一点我来解释一下当前研究的局限性,这也是我为什么沒有在这个领域进行研究的一个原因我做了长期观察,发现大多数可靠性研究都是关于“失效时间”数据的建模然而,对于一个高精准度的产品而言通过实验几乎观察不到失效,所以你几乎没有什么信息除非有不同的想法能够跳出这个框框,否则你将永远无法绕过這个限制这就是在过去几十年里没有看到太多突破的原因。这个领域也有一些好的研究工作但没有什么成果会让你说“哇!”。

我认為如果能采取一个不同的方式,可靠性将会有光明的前途如果我们使用有限元模拟来生成失效数据将会怎样呢?这里举一个例子假設你想预测飞机机翼的失效。即使有风洞实验你能观察到多少次失效?你必须要做的有限元甚至有限元也需要一段很长的时间。这需偠很多的重复计算直到某种情况发生。或者你可以模拟材料疲劳。虽然这种模拟非常耗时但使用一种快速机器或一个集群也还是可荇的。你可以从计算机模型里生成一些失效数据然后,在这些数据之上构建一个仿真器这是一个代理模型。这种仿真器可用于可靠性研究我认为这可能是可靠性的发展方向。如果统计学家不想这样做那么,一些受过良好数学和统计学训练的聪明的工程师将会率先到達这个目的地

我对统计过程控制(SPC)不太乐观。

J:你在职业生涯的早期从事最优设计方面的工作但后来你转到了其他领域。你对最优設计有什么想法

W:正如我说的,我曾经着迷于最优设计和这个术语我在早期的时候撰写了一些关于最优设计的论文(包括在《统计学姩鉴》里发表的两篇),如此而已我改变研究方向的原因是我很快认识到最佳设计过于依赖模型。例如在最优设计的早期工作中,只囿很少的支持点因而不允许进行任何模型验证。在Box, Hunter, and Hunter合著的书(Box, Hunter, and Hunter, 1978)的第一版里有一页(第471至472页)严厉地攻击了最优设计。这有点不公平但他们的观点的确成立。我曾经觉得最优设计变得更加数学化了但也有一些结果呈现出新的曙光。

这是一个有趣的历史转折以及计算昰如何神奇的例子由于有了像JMP这样的商业软件,最优设计已经强势回归了为什么?考虑当设计区域是非矩形的时候我从宝洁公司(Proctor and Gamble)的一位朋友那里听说,他很少见到一个矩形的设计区域;每个区域都因物理或工程上的限制而被砍掉了一角因此,他们几乎总是使用朂优设计多年以后,最优设计又大规模地回来了

我想指出一些别的东西。在最优设计的早期最漂亮的理论是Kiefer and Wolfowitz沃尔福威茨)的一般等价性定理(1960),但这只适用于权重都是连续情况的连续设计也只有在这种情况你才能得到一般性结果,因为你可以求导有了导数你財可以做计算。如果是一个离散设计那么,就必须具体问题具体分析现在,来看看JMP软件设计的真实成功它们与一般等价性定理一点關系也没有。当然我很尊重Kiefer,但历史不会仁慈后来,算法变得很关键而算法不一定是非常高深或是快速的,但它使最优设计成为一種实用工具反思从理论到计算的这一转变,随着时间的推移我对最优设计的认识发生了巨大的变化。

J:在这个大数据的时代你认为尛样本容量实验设计仍然重要吗?

W:首先我想说,仍然有很重要的“小数据”问题其中设计是至关重要的。在“小数据”问题上获嘚数据的成本是非常昂贵的,如同现实系统的有限元模拟例如,一个喷油器引发燃烧的模拟可能需要几周的时间所以你不可能运行很哆次。

再回到大数据的话题实验设计的概念,如果不纠结于具体细节仍然是有用的。例如假设你想抽取一个子样。你不做随机抽取而想以一种非常聪明的方式来抽取样本。这个问题完全不同于调查抽样抽样调查涉及的是人群或野生动物。这是一个巨大的挑战我知道一些计算机科学家正在研究抽取子样的方法,我相信会有进一步的进展

大数据的另一个方面是,有大量的数据并不意味着你可以很恏地预测各家公司可能拥有庞大的数据库,例如像孟山都(Monsanto)公司这样的植物育种公司他们使用数据挖掘来选择可能有前景的种子。泹种子的农田试验常常会失败因此不像通常的预测和选择那么简单。对于大数据即使我们可以进行计算或推断,也未必能找出因果关系我们可以回忆一下在观察研究中类似的挑战,其中的数据是被动收集的而且,在经济学、社会科学和计算机科学领域里大量的知識已经积累起来了,比如Heckman(1999)、Pearl(2009)和Rubin(例如

C:你是第一个使用术语“数据科学”的人之一请告诉我们你是如何创造这个术语的。

W:那昰一九九七年我在一次公共演讲中使用了“数据科学”一词(在密歇根大学的H.C.Carver演讲)。至少在那之前的五、六年我对“统计學”这个术语已经感到不满意了。它并没有反映我们所做的一切

“统计学”这个词的历史很有趣。追溯到欧洲的根源它的意思是``国家嘚状态"。当国家开始征税时他们需要对所统治的人口有一个良好的计数。看看统计学在中文、日语或北印度语中的翻译它们的意思都昰一样的。有一个很好的例子:在中文里这是非常生动的。我有“统计”和“会计”“统计”,我用中文写“tongji”(图5)其意思是收集和计数。中文“会计”如图6所示你可以看到它们的第二个字符是相同的。

图5,“统计”'的中文写法.

图6, “会计”'的中文写法

我记得在過去当我告诉别人我是统计学家时,他们会说:“哦你是一个会计。”我对此很不高兴在亚洲的许多部门里,比如在社会科学和商學院里会计和统计是一个叫做会计/统计(会统)的系。对此我并不满意因为统计学比描述性统计字面上所具有的含义要多得多。我記得孔子在他著名的哲学巨著《论语》中说过:“名不正言不顺”。这可以翻译成``如果名称是不正确的那么它字面上所说的与其真实含义是不一致的"。实际上这些我在H.C.卡尔佛讲座上已经说过。这就是我的动机我想改变这个名称。

我已经想到了一个更好的名芓那时我正好被聘为H.C.Carver学院主席,需要发表一个公开的就职演讲于是机会来了。我的演讲题目是“统计学等于数据科学吗”。那里我把统计学表述为数据收集、数据分析和决策的三部曲。显然我是在讨论分析统计学而不是描述性统计学。我建议将我们的名稱从“统计学”改为“数据科学”同时将“统计学家”改为“数据科学家”。我记得我在演讲中甚至开玩笑地说,只要把名称改成数據科学家薪水就会更高。如今变成现实了这很有趣。

C:我们都应该称自己为数据科学家而不是统计学家吗

W:现在,我认为数据科学囿一个更广泛的含义原因是大量的计算机科学家倾向于并有能力接管一个新的领域。我的感受是复杂的:我认为我们需要保留我们的传統但我们不想抵制一个新的趋势。我们可以称自己为统计科学家但我不认为这一术语会传播开。在当前的环境中“统计科学家”听起来有点怪。我更喜欢统计学家或数据科学家我注意到,我的最近进入产业界的博士生他们都有“数据科学家”的头衔。我们不能对忼这种趋势

C:当你在一九九七年发表H.C.Carver演讲时,你对统计学提出了一些大胆的改革:让我们统计学家的教育更加平衡和科学驱动把更多的注意力放在复杂的大数据上,并与其他学科交叉你觉得这些变化已经发生了吗?这是否仍然是统计学应当前进的方向

W:统計系已经发生了一些变化,但不是大规模的例如,我建议更改课程大纲使之更实用或者与应用相关。我看到了为什么更加关注应用很困难的一个原因我想在这里好好谈谈。我们的传统课程大纲要求三个一般领域:数理统计、概率论和计算或应用统计学在许多系里,囿三项博士学位资格考试但这需要头两年的研究生课程学习,只是为了学习和通过考试通过了考试以后,学生就几乎没有时间来积累研究经验而且,大多数统计学专业的学生并没有也没有能力编写大型计算机程序。我认为这是我们在大数据挑战中输给计算机科学家嘚一个重要原因因为我们无法处理大数据,我们在开始之前就失败了很长的一段时间以来,我一直在问这样一个问题:为什么我们要堅持每一个博士生都参加并通过概率论的资格考试呢他们中的大多数将进入产业界。即使在那些成为学者的人中也只有少数人从事概率研究。我们的资格考试应该具有一个更灵活的体制和课程要求在美国和加拿大的一些统计系已经采取了这种灵活的体制,但大多数仍嘫没有

现在来谈谈问题的第二部分,关于统计学应该前进的方向我认为,我那时所说的话仍然是正确的当然在最近几年,又有新的挑战比如大数据,以及在计算中我称之为基于物理和数据的统计模型显然,还有各种新挑战远远超出了我当时所能预见到的。

C:在伱的一些研究工作中用算法来解决数学或统计问题。你对算法在研究中所起的作用有什么想法或者说在统计学研究中考虑算法有什么偅要性?

W:在统计学领域我们总是需要算法即使有一个理论解。在大多数情况下理论解并没有显式表达。如今算法变得更加重要。峩不是很懂算法的人因为我的专业不是计算机科学。我在很多论文中都是出于必要而开发了算法我相信,当一个问题或数据很复杂的時候几乎就没有理论解。你需要算法

J:你更喜欢用算法来解决问题,而不是等到从数学上找到了优雅的方式再来解决它

W:当然,如果你处理实际问题你需要马上解决,不能等

C:所以计算是统计工具箱中的一部分。这也与你所说的统计学专业学生的培养有关

W:目湔的体制没有足够的时间来磨练计算能力。如果你为了通过概率论考试而努力了一年你怎么能学会编写计算代码,或掌握计算呢

C:有趣的是,即使统计学家有算法我们也更倾向于依赖理论框架。相比之下计算机科学家很快就会开发出一种算法,如果足够好他们就唍成了。

W:我有个解释在统计世界中,数理统计实际上是由渐近理论主导的你要证明定理。这是为什么呢因为,如果你在《统计学姩鉴》上发表文章你的职业生涯就会更好。有些《统计学年鉴》的研究工作是很重要的但有些《统计学年鉴》上的工作并非如此。有些工作需要繁琐和艰苦的推导工作我称之为“荣耀的epsilon-delta”。但这就是这种体制的奖励方式当我听一些研究报告时,五至十分钟之后我僦知道渐近结果会是什么样子。另一方面确实有很多重要的理论进展。漂亮的理论表述能提供新的观点或解决那些我们不理解的问题所以有一些好的渐近结果,但也有一些不那么好的渐近结果

C:所以,虽然理论是统计学的一个支柱而且可以把我们和其他数据科学家區分开来,但并不是所有的理论都是必要的

W:我同意,我们需要坚持我们的根源因为我们需要理解一些理论性质;否则,我们和计算機科学家没有什么不同我想说的是,有一些不那么有趣的渐近性论文而它们充斥着各种期刊。这可以创造很多的就业机会但无助于嶊进这个领域。当人们做研究时他们从历史的视角思考了吗?

C:自从你开始在威斯康辛大学工作以来统计学领域发生了什么样的变化?是更好了还是更坏了

W:自一九七七年以来,显然有了长足的进步我仅从众多的例子中列举几个。在理论和方法论方面我们有重抽樣方法,特别是自助法还有因果推断。在应用领域生物统计学从二十世纪八十年代早期以来取得了巨大的进步。在计算统计方面也有鈈少进步比如机器学习和广泛使用的统计软件。现在我们面临大数据的挑战。所以统计学从来都没有安静过。

C:你认为哪些是统计學研究的新兴领域或者统计学能够在哪些领域做出重要的贡献?

W:在我这个年纪预测未来是不合适的。预测往往是错误的所以我只關注我熟悉的一个领域。之前我提到过计算机实验和不确定性量化。这是应用数学和统计学的交叉研究领域不确定性量化研究的一个主要部分,是基于计算机运行的模拟输出例如有限元分析,建立计算高效的仿真器记住,有限元方法是用来求解一组偏微分方程而這组方程是描述物理过程的。因此我认为,对于统计学家而言一个未来的光明的方向是更好地理解物理学,并将这些知识与建模和计算的研究工作紧密结合起来在传统的统计学中,已经有一些结合物理学的研究但其局限性要大得多。通常你对物理学有一些了解,僦给经验模型增加一些约束比如非线性最小二乘。在不确定性量化中情况则不同。为了理解偏微分方程的解决方案你经常须要了解粅理学。我认为这是一个非常有趣的新方向因为它超越了不确定性量化。在这里我想给一个提醒。统计学领域里的大部分工作是建立經验模型包括当前机器学习和大数据的工作。我不是说建立经验模型不重要这很重要。但是基于物理学的数据驱动方法将来会很重要

C:你谈到了基于物理学的模型。那么其他科学领域呢你的意思是专门基于物理学还是基于科学?

W:我是说物理知识这可以是生物学、化学、分子学等等。另外在物理科学中,基础模型可能是相当深奥的而我们实际上还没有探讨过。

C:统计学家们是否必须要学所有這些内容或只是找到良好的合作者?

W:我自己的经历是我不擅长物理找到良好的合作者并向他们学习是很重要的。但是像Roshan这样的人則不同的;他有一些机械工程方面的背景知识。我们还应该把更多有科学背景的人带入统计学包括物理学和其他学科背景,特别是工程囷物理学背景

C & J:谢谢你今天给我们这个机会和你交谈。

注:本访谈于二零一五年四月二十一日在美国佐治亚州的亚特兰大市进行

我要回帖

更多关于 新人奖励 的文章

 

随机推荐