应届生求职简历下载找工作绩点很重要吗

拒绝访问 | bbs.yingjiesheng.com | 百度云加速
请打开cookies.
此网站 (bbs.yingjiesheng.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(43c5-ua98).
重新安装浏览器,或使用别的浏览器3被浏览452分享邀请回答1添加评论分享收藏感谢收起拒绝访问 | bbs.yingjiesheng.com | 百度云加速
请打开cookies.
此网站 (bbs.yingjiesheng.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(4376-ua98).
重新安装浏览器,或使用别的浏览器&p&谢学弟邀:) &b&既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域&/b&。相较而言,工业界对人才的需求更加保守,这和学术界不同。这受限于很多客观因素,如硬件运算能力、数据安全、算法稳定性、人力成本开支等。&/p&&p&&b&这个答案可能更适合两类人: 1. 在读的学生朋友 2. 工作不久想要转行机器学习的朋友&/b&。特别厉害的技术大牛建议探索适合自己的路线,而我只能谈一谈适合大部分人的路线。但在回答前,我还是忍不住吐槽一下那种简单回答“深度学习”,“大数据”,“NLP”,“机器视觉”的人。这每一个领域的小方向都多如牛毛,以自然语言处理(NLP)为例,细分有自然语言生成、自然语言理解,还有不同语言的语言模型。任何一个方向花几十年研究也不为过,只给出几个字的答案和买彩票有什么区别...&/p&&p&&b&因此大部分机器学习实践者还是该脚踏实地。盲目追逐热点很容易跌进陷阱,而巩固基础、寻找自己擅长的领域和机器学习交叉点可以帮助你在未来的就业市场变得炙手可热,成为工业界最紧缺的人才。&/b&&/p&&h2&&b&0. 背景&/b&&/h2&&p&&b&工业界未来需要什么样的机器学习人才?老生常谈,能将模型应用于专业领域的人,也就是跨领域让机器学习落地的人&/b&。有人会问现在我们不就需要这样的人吗?答案是肯定的,我们需要并将长期需要这样的人才,现阶段的机器学习落地还存在各种各样的困难。&b&这样的需求不会是昙花一现,这就跟web开发是一个道理,从火热到降温也经过了十年的周期。一个领域的发展有特定的周期,机器学习的门槛比web开发高而且正属于朝阳期,所以大家致力于成为“专精特定领域”的机器学习专家不会过时。&/b&&/p&&p&什么是特定领域的机器学习专家?举个例子,我以前曾回答“人工智能是否会替代财务工作者”时提到我曾在某个公司研究如何用机器学习自动化一部分审计工作,但遇到的最大困难是我自己对审计的了解有限,而其他审计师对我的工作不是非常支持导致进展缓慢。&b&所以如果你有足够的机器学习知识,并对特定领域有良好的理解,在职场供求中你肯定可以站在优势的那一边&/b&。以我的另一个回答为例「&a href=&https://www.zhihu.com/question//answer/& class=&internal&&阿萨姆:反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?」&/a&,特定领域的知识帮助我们更好的解释机器学习模型的结果,得到老板和客户的认可,这才是算法落了地。&b&能写代码、构建模型的人千千万,但理解自己在做什么,并从中结合自己的领域知识提供商业价值的人少之又少。&/b&所以调侃一句,哪个方向的机器学习人才最紧缺?答:每个领域都需要专精的机器学习人才,你对特定领域的理解就是你的武器。&/p&&p&当然,给喂鸡汤不给勺很不厚道,所以我也会给出一些具体建议。&b&再次申明,我的建议仅给以就业为目的的朋友,走研究路线我有不同的建议,本文不再赘述。&/b&&/p&&h2&&b&1. 基本功&/b&&/h2&&p&说到底机器学习还是需要一定的专业知识,这可以通过学校学习或者自学完成。&b&但有没有必要通晓数学,擅长优化呢?我的看法是不需要的,大前提是需要了解基本的数学统计知识即可&/b&,更多的讨论可以看我这个答案「&a href=&https://www.zhihu.com/question//answer/& class=&internal&&阿萨姆:如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?」&/a&。最低程度下我建议掌握五个小方向,对于现在和未来几年内的工业界够用了。&b&再一次重申,我对于算法的看法是大部分人不要造轮子,不要造轮子,不要造轮子!只要理解自己在做什么,知道选择什么模型,直接调用API和现成的工具包就好了。&/b&&/p&&ul&&li&&b&回归模型(Regression)&/b&。学校的课程中其实讲得更多的都是分类,但事实上回归才是工业届最常见的模型。比如产品定价或者预测产品的销量都需要回归模型。现阶段比较流行的回归方法是以数为模型的xgboost,预测效果很好还可以对变量重要性进行自动排序。而传统的线性回归(一元和多元)也还会继续流行下去,因为其良好的可解释性和低运算成本。如何掌握回归模型?建议阅读Introduction to Statistical Learning的2-7章,并看一下R里面的xgboost的package介绍。&/li&&li&&b&分类模型(Classification)&/b&。这个属于老生常谈了,但应该对现在流行并将继续流行下去的模型有深刻的了解。举例,随机森林(Random Forests)和支持向量机(SVM)都还属于现在常用于工业界的算法。可能很多人想不到的是,逻辑回归(Logistic Regression)这个常见于大街小巷每一本教科书的经典老算法依然占据了工业界大半壁江山。这个部分推荐看李航《统计学习方法》,挑着看相对应的那几章即可。&/li&&li&&b&神经网络(Neural Networks)&/b&。我没有把神经网络归结到分类算法还是因为现在太火了,有必要学习了解一下。随着硬件能力的持续增长和数据集愈发丰富,神经网络的在中小企业的发挥之处肯定会有。三五年内,这个可能会发生。但有人会问了,神经网络包含内容那么丰富,比如结构,比如正则化,比如权重初始化技巧和激活函数选择,我们该学到什么程度呢?我的建议还是抓住经典,掌握基本的三套网络: a. 普通的ANN b. 处理图像的CNN c. 处理文字和语音的RNN(LSTM)。对于每个基本的网络只要了解经典的处理方式即可,具体可以参考《深度学习》的6-10章和吴恩达的Deep Learning网课(已经在网易云课堂上线)。&/li&&li&&b&数据压缩/可视化(Data Compression & Visualization)&/b&。在工业界常见的就是先对数据进行可视化,比如这两年很火的流形学习(manifold learning)就和可视化有很大的关系。工业界认为做可视化是磨刀不误砍柴工,把高维数据压缩到2维或者3维可以很快看到一些有意思的事情,可能能节省大量的时间。学习可视化可以使用现成的工具,如Qlik Sense和Tableau,也可以使用Python的Sklearn和Matplotlib。&/li&&li&&b&无监督学习和半监督学习(Unsupervised & Semi-supervised Learning)&/b&。工业界的另一个特点就是大量的数据缺失,大部分情况都没有标签。以最常见的反诈骗为例,有标签的数据非常少。所以我们一般都需要使用大量的无监督,或者半监督学习来利用有限的标签进行学习。多说一句,强化学习在大部分企业的使用基本等于0,估计在未来的很长一阵子可能都不会有特别广泛的应用。&/li&&/ul&&p&&b&基本功的意义是当你面对具体问题的时候,你很清楚可以用什么武器来处理&/b&。而且上面介绍的很多工具都有几十年的历史,依然历久弥新。所以以3-5年的跨度来看,这些工具依然会非常有用,甚至像CNN和LSTM之类的深度学习算法还在继续发展迭代当中。无论你现在还在学校还是已经开始工作,掌握这些基本的技术都可以通过自学在几个月到一两年内完成。&/p&&h2&&b&2. 秘密武器&/b&&/h2&&p&有了基本功只能说明你可以输出了,怎么才能使得你的基本功不是屠龙之术?必须要结合领域知识,这也是为什么我一直劝很多朋友不要盲目转机器学习从零做起。&b&而学生朋友们可以更多的关注自己感兴趣的领域,思考如何可以把机器学习运用于这个领域&/b&。比如我自己对历史和哲学很感兴趣,常常在思考机器学习和其他文科领域之间的联系,也写过一些开脑洞的文章「 &a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&带你了解机器学习(一): 机器学习中的“哲学”&/a&&a href=&https://www.zhihu.com/question//answer/& class=&internal&&」&/a&。&/p&&p&&b&而已经有了工作/研究经验的朋友,要试着将自己的工作经历利用起来。举例,不要做机器学习里面最擅长投资的人,而要做金融领域中最擅长机器学习的专家,这才是你的价值主张(value proposition)。最重要的是,机器学习的基本功没有大家想的那么高不可攀,没有必要放弃自己的本专业全职转行,沉没成本太高。通过跨领域完全可以做到曲线救国,化劣势为优势,你们可能比只懂机器学习的人有更大的行业价值。&/b&&/p&&p&举几个我身边的例子,我的一个朋友是做传统软件工程研究的,前年他和我商量如何使用机器学习以GitHub上的commit历史来识别bug,这就是一个很好的结合领域的知识。如果你本身是做金融出身,在你补足上面基本功的同时,就可以把机器学习交叉运用于你自己擅长的领域,做策略研究,我已经听说了无数个“宣称”使用机器学习实现了交易策略案例。虽不可尽信,但&b&对特定领域的深刻理解往往就是捅破窗户的那最后一层纸,只理解模型但不了解数据和数据背后的意义,导致很多机器学习模型只停留在好看而不实用的阶段&/b&。&/p&&p&换个角度思考,不同领域的人都有了对机器学习的理解能更好的促进这个技术落地,打破泡沫的传言。&b&而对于大家而言,不用再担心自己会失业,还能找到自己的角度在这个全民深度学习的时代找到“金饭碗”。所以我建议各行各业的从业者不必盲目的转计算机或者机器学习,而应该加深对本专业的了解并自学补充上面提到的基本功,自己成为这个领域的机器学习专家。&/b&&/p&&h2&&b&3. 弹药补给 &/b&&/h2&&p&没有什么不会改变,这个时代的科技迭代速度很快。从深度学习开始发力到现在也不过短短十年,所以没有人知道下一个会火的是什么?以深度学习为例,这两年非常火的对抗生成网络(GAN),多目标学习(multi-lable learning),迁移学习(transfer learning)都还在飞速的发展。有关于深度学习为什么有良好泛化能力的理论猜想文章在最新的NIPS听说也录了好几篇。这&b&都说明了没有什么行业可以靠吃老本一直潇洒下去,我们还需要追新的热点。&/b&但机器学习的范围和领域真的很广,上面所说的都还是有监督的深度学习,无监督的神经网络和深度强化学习也是现在火热的研究领域。&b&所以我的建议是尽量关注、学习了解已经成熟和已经有实例的新热点,不要凡热点必追。&/b&&/p&&p&&b&如果你有这些基本功和良好的领域结合能力,三年五年绝不是职业的瓶颈期,甚至十年都还太早。科技时代虽然给了我们很大的变革压力,但也带给了我们无限的可能。技术总会过时,热点总会过去,但不会过去的是我们不断追求新科技的热情和对自己的挑战。&/b&&/p&&p&欢迎来到机器学习的世界 ?o?o? &/p&
谢学弟邀:) 既然已经身在工业界,那么我就谈谈工业界未来几年需要什么样的机器学习人才。不谈学术界主要还是因为大部分人最终不会从事研究,而会奋斗在应用领域。相较而言,工业界对人才的需求更加保守,这和学术界不同。这受限于很多客观因素,如硬件运算…
&p&&b&我觉得大家说的都比较偏重于传统的CS方向,比如软件开发类。我想抛砖引玉,谈谈如果想走机器学习或者数据科学方向可以做些什么准备&/b&。&/p&&p&当然,我并不是想劝大家都来做机器学习...但如果这个方向是你的兴趣,在大学时打好基础可以先人一步!&b&这个推荐是以像我自己一样的普通人为前提而假设,少量条件特别好的同学可以自己摸索更有“个性”的路。&/b&&/p&&p&我想从从三个方向来说: a. 知识积累 b. 经验积累 c. 素养积累&/p&&h2&&b&1. 知识学习:&/b&&/h2&&p&1.1. 掌握好必备的数学基础,其实简单说在大学程度主要是三门课: a. 微积分 b. 线性代数. c.概率与统计。如果学有余力,还可以看看优化方向的东西,但这个不是强求。&/p&&p&1.2. 掌握好一些基础的计算机核心课程,比如数据库,并行运算,离散数学(暂且把它放到计算机这一栏里面)。&b&至于编程方面的技巧,我倒觉得不是需要做到特别厉害。如果能力有限的话,可以放低对操作系统,计算机结构这种比较偏底层的课程&/b&。&b&人生要学会抓大放小,不要苛求自己样样精通&/b&。&/p&&p&1.3. 学好Python,了解Python上的编程习惯(PEP8)和语法糖。同时可以多了解一些Python对应的数据科学/机器学习的工具库,比如pandas, numpy,scipy,sklearn等。&b&即使将来你不做机器学习,胶水语言Python的知识还是可以有很大的帮助。选择Python的另一个原因是大部分深度学习框架,Tensorflow/Theano/Keras/Pytorch等都是基于或有Python接口。&/b&&/p&&p&1.4. 开始学习基础的机器学习,比较推荐的方法是: a. 观看Andrew Ng 在Coursera上的机器学习课程 b. 同时开始阅读基础的机器学习书籍(比如《集体编程智慧》《Python机器学习》《Introduction to Statistical Learning》等)。&b&这个阶段,最重要的就是不要贪多嚼不烂&/b&。如果你浏览知乎,会发现大家都说你必须读Elements of Statistical Learning, PRML之类的大部头。我承认阅读这样的书会有帮助,但不大适合一开始直接阅读,因为有可能会让你“从入门到放弃”。&b&在你有了一定的基础知识后,你已经知道自己需要接着做什么了,我希望把选择权交还给你,而不是推荐成堆的课程和书籍。&/b&当然,如果你希望继续深入的话,中文可以阅读周志华老师的《机器学习》和李航老师的《统计学习基础》,英文可以入手《Elements of Statistical Learning》和《Deep Learning》。在这个阶段,重点要形成成体系的知识脉络,切记贪多嚼不烂,切记!&/p&&p&1.5. 学好英语,至少打下阅读和听力的基础。&b&虽然人工智能领域中国现在已经做得很不错,但主流的书籍、期刊和会议,资料都是英文的&/b&。我们可以接受翻译版,但最好的方法还是自己有能力直接阅读。即使你将来不做机器学习,英文阅读能力还是会有很大的帮助。&/p&&h2&&b&2. 实践经历:&/b&&/h2&&p&2.1. 尝试尽早接触科研,进实验室。一般来说,大三的时候你应该已经有了基本的机器学习知识,尽管还比较浅。这个时候可以向老师/学长/学姐毛遂自荐进实验室,即使是无偿劳动和做基本的苦力活。进实验室有两个明显的好处:a. &b&对某个小方向会有比较深入的了解&/b&。一般实验室做纯理论的不大需要本科生,做机器视觉或者自然语言处理(NLP)等小方向的比较需要本科生,所以这是很好的深入了解一个方向的机会。 b. 补充了研究经历也可以明白自己是否适合这个领域。如果运气好的话,你也有可能成为论文的作者之一,甚至可以去开会(公款旅游顺道见一下业内大佬)。&b&这对于继续深造和去国外继续学习都很有帮助,有科研经历和论文是很大的筹码,对于找工作来说也绝对有利无害。&/b&&/p&&p&2.2. 如果对科研的兴趣一般,可以尝试尽早实习。&b&大部分我们从书上看到的方法其实或多或少都是理想模型,甚至很多都比较过时了&/b&。举例,现在大部分教科书里神经网络的激活函数还是sigmoid,而工业界早就不用sigmoid了。机器学习的新手最大的门槛就是学了很多知识,却没有使用和检验的机会,而尽早实习可以给你更直观的感受,防止只有一身屠龙之技。&/p&&p&2.3. 可能科研和实习机会有时候可遇不可求,这时候就要自己找项目来做,用兴趣来驱动项目。&b&比较好的方法包括参加Kaggle竞赛,天池竞赛,或者将机器学习运用于自己感兴趣的事情上&/b&。我曾看到知乎上有&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&用机器学习判定红楼梦后40回是否曹雪芹所写&/a&,且不说文章是否严谨,但这就是用兴趣推动实践的很好的例子。&/p&&h2&&b&3. 社科人文:&/b&&/h2&&p&3.1. &b&机器学习作为一个变化飞速的领域,要有自己的“坚持”和“品味”&/b&。举个简单的例子,现在的深度学习大放光彩需要归功于一批科学家在神经网络低谷时的坚持。但同时,即使只说机器学习,也不要相信只有深度学习最好,不能固执。如果对机器学习感兴趣,就不要今天觉得网络安全好,明天觉得人机互动(HCI)最有前途。&b&追逐热点往往到手的都是泡沫&/b&。&/p&&p&3.2. 多读不同领域的书,比如社科类、经济类、人文类。&b&因为数据科学的起点是以数据为基础,终点提取见解提供反馈&/b&。而见解不像数字一样一眼就可以看出高低大小,而需要阅历来多角度分析。很多人觉得计算机学科的人读数学看论文就够了,实则不然,科学总会和社会有交织。举个例子,是否该将人工智能应用于军事就是最近知乎上很火的问题,但回答这个问题就需要你有足够的非计算机知识储备,&b&科技没有善恶,而人有&/b&。&/p&&p&3.3. 放低身段,多和别人交流。其实这一点有一点牵强,但我发现做机器学习的小伙伴一般都很有性格,很多也比较内向(包括我自己),这可能适用于大部分理工科的朋友。即便如此,我还是建议大家稍微放开一些,&b&因为以数据为导向的工作大部分都要求互动,比如数据分析师、数据科学家等&/b&。&/p&&h2&4. 写在最后:&/h2&&p&科技日新月异,追逐热点是好的。但就像我刚刚提到的,在这个浮躁的时代,&b&不管选择什么方向最重要的就是独立思考的能力,和去伪存真的勇气。如果一件事情不能证实,不能证伪,那就必须存疑&/b&。大学不仅是最美好的时光,更是培养良好科学素养的关键时光。&/p&&p&&b&因此,看了这么多过来人分享经验后,我最希望的是你既不要急着全盘接受,也不要因为不对胃口全盘否定。慢下来,好好想想,这大概才是做科学工作的正确态度。&/b&&/p&&p&愿你有所收获!?o?o? &/p&
我觉得大家说的都比较偏重于传统的CS方向,比如软件开发类。我想抛砖引玉,谈谈如果想走机器学习或者数据科学方向可以做些什么准备。当然,我并不是想劝大家都来做机器学习...但如果这个方向是你的兴趣,在大学时打好基础可以先人一步!这个推荐是以像我自…
王垠 &a href=&//link.zhihu.com/?target=http%3A//yinwang0.wordpress.com/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&yinwang0.wordpress.com/&/span&&span class=&invisible&&&/span&&/a&&a href=&//link.zhihu.com/?target=http%3A//www.yinwang.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&当然我在扯淡&/a&&br&BYVoid &a href=&//link.zhihu.com/?target=https%3A//www.byvoid.com/blog& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&網誌 - BYVoid&/a&&br&云风 &a href=&//link.zhihu.com/?target=http%3A//blog.codingnow.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&云风的 BLOG&/a&&br&余锋 &a href=&//link.zhihu.com/?target=http%3A//blog.yufeng.info/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&blog.yufeng.info/&/span&&span class=&invisible&&&/span&&/a&&br&阮一峰 &a href=&//link.zhihu.com/?target=http%3A//www.ruanyifeng.com/blog/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&阮一峰的网络日志&/a&&br&Beiyuu &a href=&//link.zhihu.com/?target=http%3A//beiyuu.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BeiYuu.com&/a&&br&陈硕 &a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/Solstice/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&陈硕 - 博客园&/a&&br&老赵 &a href=&//link.zhihu.com/?target=http%3A//blog.zhaojie.me/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&首页
- 老赵点滴&/a&&br&vczh &a href=&//link.zhihu.com/?target=http%3A//www.cppblog.com/vczh& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&λ-calculus(惊愕到手了欧耶,GetBlogPostIds.aspx)&/a&&br&v_july_v &a href=&//link.zhihu.com/?target=http%3A//blog.csdn.net/v_july_v& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&结构之法 算法之道&/a&&br&老罗 &a href=&//link.zhihu.com/?target=http%3A//blog.csdn.net/luoshengyang& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&老罗的Android之旅&/a&&br&zhuangbiaowei &a href=&//link.zhihu.com/?target=http%3A//www.zhuangbiaowei.com/blog/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&读书、思考、生活&/a&&br&robbin &a href=&//link.zhihu.com/?target=http%3A//robbinfan.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&robbin的自言自语&/a&&br&mindhacks &a href=&//link.zhihu.com/?target=http%3A//mindhacks.cn/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&刘未鹏 | Mind Hacks&/a&&br&&br&updates:&br&陈皓 &a href=&//link.zhihu.com/?target=http%3A//coolshell.cn/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&酷壳 – CoolShell.cn&/a&&br&鸟哥 &a href=&//link.zhihu.com/?target=http%3A//www.laruence.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&风雪之隅-Laruence的博客&/a&&br&&a data-hash=&1e2cccc3ce33& href=&//www.zhihu.com/people/1e2cccc3ce33& class=&member_mention& data-tip=&p$t$1e2cccc3ce33& data-hovercard=&p$b$1e2cccc3ce33&&@Milo Yip&/a&&a href=&//link.zhihu.com/?target=http%3A//www.cnblogs.com/miloyip/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Milo Yip - 博客园&/a&
对于大部分人来说,数据分析基本上都是靠着自学完成,比如我就是一个典型的案列。题主是计算机出生,上手数据分析应该比较容易一点。我没接触过什么编程,目前也在搞SPARK,HADOOP等,也没觉得自己比别人差多少~~&br&&br&我给出的这个回答基于我自己的学习路径,并且主要是以书本为主,尝试回答一下:&b&一个新手如何系统的学习数据分析&/b&&br&下面我先给出书单:&br&&figure&&img src=&https://pic2.zhimg.com/b9904e2bbca6dcd353d359_b.jpg& data-rawwidth=&1212& data-rawheight=&1258& class=&origin_image zh-lightbox-thumb& width=&1212& data-original=&https://pic2.zhimg.com/b9904e2bbca6dcd353d359_r.jpg&&&/figure&&br&这些书籍都有对应的中文版本。我喜欢将学习分阶段进行,这样学习起来有目标并且不会太累,每个阶段完成各自的任务就好。后面的星星代表每本书籍的重要度,星星越多表示该书越值得阅读。&br&&br&&b&初级阶段:&/b&&br&首先,我是赞成PYTHON ROCKS这句话。说多了你可能不理解,但是当你正真在工业上应用的时候,你就会发现PYTHON能做很多R不能做的事情。 因此强烈建议第一阶段以打基础,学习PYTHON为主。 那么怎么学?&br&《深入浅出数据分析》 是可以学习到最基础的统计、概率等理论知识,这些知识是你前进的基石,而且此书延续了head first系列的一贯作风,非常的有趣味,读起来不会感觉枯燥乏味!&br&&br&接下来你应该好好的学一学PYTHON这门语言。我们说PYTHON可以做的事情太多了,数据分析只是它的一个功能而已。因此锁定目标,只学习有关数据分析部分的知识就行,其它涉及到什么WEB开发,网络编程的一律跳过,一定要集中精力去攻克你的目标,不要分神,有时候摊子铺大了就回不来了!!
那么《利用PYTHON进行数据分析》绝对是你学习PYTHON的不二之选(我指的是数据分析),这本书的作者是大名鼎鼎的pandas的作者,你可以想象这本书的权威性。因此去买一本,好好的研究一番,基本上你的数据处理能力能上好几个台阶。一定要重点学习numpy,pandas,matplotlib.
&br&&br&然后,SQL是你逃不掉的命,一定要写好,你既然是计算机专业,应该不需要我强调太多~&br&最后一本书你就当着小说读读就行,改善一下你程序员的思维,学会一点怎么在真实业务中应用数据分析技巧!记住:这是趣味书!&br&&br&以上就是初级阶段,主要以看书为主,让自己对数据分析有一个初步的认识。&br&下面的中级,高级就需要配合视频和书本一起来学习了~&br&&br&&b&中级进阶:&/b&&br&这一部分是核心的地方,也是你能够和别人拉开距离的阶段。学的好,薪资蹭蹭的往上涨,学不好,那就多学几遍。&br&在这个阶段的核心任务就是:撸的了代码,算的上公示,看得懂业务!
&b&中级阶段会涉及到大量的使用代码和模型去解决实际业务问题!&br&&/b&&br&看清楚三点:代码、模型、案列&br&你要边学边用,这样才能学的更快,收货更多! 那么怎么学?&br&第一步,《数据挖掘导论》这本书先花一个月的时间好好的阅读下,知道数据挖掘的一个雏形,能够认识一些常用的模型和算法。能够搞清楚常用的监督和非监督学习,提到模型要能说出它的应用场景和优缺点。回答几个关于这本书的常见问题?&br&1. 阅读这本书是否需要一点课前知识? &br& 答:要,但是不多。&br&2. 都有哪些课前知识?&br&答:微积分,概率论,线性代数,运筹学等等&br&3. 我的天!那我是不是先要去学习一下这些知识后再来看这本书?&br&答:千万别!!! 记得我前面说过:摊子铺大了你有时候就回不来了。 &br&4. 那我怎么学?&br&答:很简单。直接看书,看不明白的就去google。比如说你看到SVM那里,不知道什么是拉格朗日,那么就去Google(其实这本书的附录也讲了什么是朗格朗日,甚至还讲解了怎么进行矩阵计算)。 总之,不要兜圈子,遇到什么就去补什么。&br&&br&同时,在这里我强烈建议你去学习一下coursera上面的机器学习课程,你会对算法有一个更深的认识,关键是你能学会矩阵计算,梯度下降等常用技能:&br&&a href=&//link.zhihu.com/?target=https%3A//www.coursera.org/learn/machine-learning& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/learn/mach&/span&&span class=&invisible&&ine-learning&/span&&span class=&ellipsis&&&/span&&/a&&br&&br&&br&&br&第二步,使用PYTHON结合数据挖掘知识进行实际案列操作。请使用《集体智慧编程》,这本书的评价我也给你们贴出来,豆瓣评分9分,质量自然不用我说。我唯一想强调的是:请你一定要全部代码自己写一遍,不要复制粘贴!!!!!!&br&&a href=&//link.zhihu.com/?target=http%3A//book.douban.com/subject/3288908/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&集体智慧编程 (豆瓣)&/a&&br&&br&如果有时间,请去学习一下关于PYTHON的课程:&a href=&//link.zhihu.com/?target=https%3A//www.edx.org/course/introduction-computer-science-mitx-6-00-1x-0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Introduction to Computer Science and Programming Using Python&/a&&br&&br&第三步,欢迎使用《机器学习系统设计》这本书,你会接触到PYTHON里面最niubility的SCIKIT-LEARN机器学习包。虽然官网文档阅读性已经很佳,但是缺少一个系统的过程。而这本书就是教会你如何从真实的业务角度去思考运用机器学习模型。 同样的,请你自己敲代码,不懂的就去看官方文档,还是不懂的就去google。&br&&br&第四步,想知道为什么豆瓣和亚马逊的推荐那么准确?
那么《推荐系统实战》绝对是一本最佳的书籍,作者将全部的算法使用PYTHON实现,无论是基于业务的推送还是基于协同过滤算法的推送都讲解的非常清楚!!如果你有兴趣了解,请毫不犹豫的上马拉弓~&br&&br&第五步,你一定听说过R,一定也纠结过到底学习R还是PYTHON。那么我就粗暴的回答一下:都要学!,前期已PYTHON为主,后期一起学习R语言,不要问我为什么,纯属个人感觉。 &br&《R IN ACTION》绝对绝对是入门的最好参考书,没有之一。跟着书上的代码敲一遍,模型计算都自己搞清楚(你有了前面的基础,这些学起来很轻松)。&br&最后,COURSERA上面的R语言课程很糟,谁听谁倒霉,不信你去试试?&br&&br&高级部分下次再敲,累~~~
对于大部分人来说,数据分析基本上都是靠着自学完成,比如我就是一个典型的案列。题主是计算机出生,上手数据分析应该比较容易一点。我没接触过什么编程,目前也在搞SPARK,HADOOP等,也没觉得自己比别人差多少~~ 我给出的这个回答基于我自己的学习路径,并…
我和很多人一样,不太喜欢快速这个词,急于求成的结果是得不偿失。&br&在这里,我将题主的“快速”理解为如何&b&&u&在最短的时间内高效率&/u&&/b&的成为数据分析师。我想这才是题主的初衷吧! &br&首先,成为任何一个技术型工作的从业者最需要的就是掌握相关的专业技能,因此也可以这么理解题主的话:&b&&u&如何在最短的时间内高效率的掌握数据分析知识从而达到找一份相关工作的资格!&/u&&/b&&br&&br&在长篇大论之前,我先给题主来一粒定心丸:&b&3个月零基础入门数据分析师是一件完全可能的事!&/b&&br&看清楚哦,我说的是入门。入门基本上就是懂得了常规的数据分析知识并且据此找到一份简单的工作!&br&知乎里面有很多关于学习数据分析的帖子,写的都很好。但是它们和快速没有任何关系,你要完成那些大神们的书单贴,至少需要3、5年才行。因为那是一个perfect 的数据分析师,而不是入门级别的!&br&&br&我简单的将学习数据分析的同学分为三种:&br&1.学过计算机但不会统计学(新手)&br&2.学过统计学但不会计算机(小白)&br&3.统计学和计算机都不会(菜鸟)&br&&br&他们的排名是: 菜鸟 & 小白 &= 新手。
无需置疑,菜鸟是最弱的级别,学习起来也是困难重重。小白和新手算是有一定的基础,学习起来会比较轻松一点。 从我个人角度来看,我觉得计算机技术要重于统计学知识,因此我认为学计算机的同学更容易入门。&br&&br&当然,无论处于哪一个级别你都需要做两件事:&br&&ol&&li&一份正确的学习计划&br&&/li&&li&一套正确的书籍&br&&/li&&/ol&废话不多说,先上书单:&br&&figure&&img data-rawheight=&497& src=&https://pic2.zhimg.com/5dde6b0d235c448fff2fd29_b.jpg& data-rawwidth=&831& class=&origin_image zh-lightbox-thumb& width=&831& data-original=&https://pic2.zhimg.com/5dde6b0d235c448fff2fd29_r.jpg&&&/figure&&br&上面这十本书,每一本都是经典。 &br&它完美的解决了一个初级数据分析师应该掌握的技能:&br&&ol&&li&统计学基础&br&&/li&&li&常用模型理论&br&&/li&&li&R和PYTHON&br&&/li&&li&网页分析&br&&/li&&li&数据库技术&br&&/li&&li&实战应用&/li&&/ol&简单的描述下:&br&&br&统计学无需置疑是一个数据分析师的核心功底,你只有学好了统计学才能谈得上数据分析。&br&但是统计学又常常是不够用的,我们还需要一些高级的模型来解决我们实际业务中的问题,比如:银行需要判断是否给某个客户发放信用卡
这就需要一个高级的二分类模型。这里我们的数据挖掘理论就派上用场了。&br&有了理论知识,我们需要用工具去实现我们的理论并加以应用。这个年代,已经没有人会去手工计算某个问题了,R和PYTHON就是最负盛名的数据分析工具。 关于R和PYTHON的地位,题主可以百度,谷歌,知乎等搜索一遍。
至于如何学习,请看上面的书单!&br&如果致力于在互联网领域发展,那么网页分析是你必看的一本书籍。这本是是大名鼎鼎的GA创始人著作,看一遍,做一遍会有一个不错的收获。&br&数据分析师是跟数据打交道的,我们的数据都是存储在数据库里面的,因此掌握必备的数据库技术是肯定要的!&br&以上就是对入门级别的数据分析师做的一个简单的描述!
&br&&br&那么,在对书籍有了一定的了解之后,具体的该怎么学习呢?&br&首先,我给大家推荐一个我们自己录制的视频《零基础指导学习数据分析》。下载地址如下:&br&&a href=&//link.zhihu.com/?target=http%3A//pan.baidu.com/s/1eQzWzsu& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SOTON第一课1.zip_免费高速下载&/a&&br&内有讲义以及高清无码的视频。&br&&br&我们将三个月分为三个学习阶段,每个阶段请务必保持每天3个小时以上的学习时间。这个时间要求不过分,不管是对学生党还是上班族,三个小时总是抽的出来的。&br&&br&&b&第一阶段:初识数据分析&/b&&br&这个阶段是你学习数据分析的第一个月。核心的三本书就是:统计学、R IN ACTION、深入浅出数据分析。&br&第一星期:好好的阅读一下统计学这本教材。按照每天3个小时的时间,一个星期你至少能看完8章。踏踏实实的看完,课后习题不需要做,重点放在理解公式推导以及专业名字定义的理解上。&br&&br&第二星期:有了统计学基础,R语言学习起来就不会太费劲。《R in action》 是公认的R语言经典教材。跟着书上的代码仔细的敲一笔遍,你不需要全部看完这本书,只需要学会前8章左右就差不多了。
学完后你会对统计学有一个更深的认识~&br&&br&第三个星期:《深入浅出数据分析》这本书很大头,不是因为它内容多,而是因为它废话和插图多。很有意思的一本入门级别的教材,花一个星期好好的读一下,能学多少是多少。&br&&br&第四个星期:查漏补缺。经过前三个星期的学习,你一定有不少的疑惑或者遗忘了某些知识。不要着急,这个星期就是用来好好回顾一下你本月所学的东西,不懂的定义再看看,不会的代码再敲敲,不懂的知识再google一下~&br&&br&对了,再送你一个视频呗。讲的是如何利用EXCEL进行完整的数据分析流程:&br&&a href=&//link.zhihu.com/?target=http%3A//pan.baidu.com/s/1kTnAYoB& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&初识数据分析-720P.zip_免费高速下载&/a&&br&&br&&b&第二阶段:升级你的技能&/b&&br&&b&第一&/b&个月只是让你对数据分析有一个初步的认识,你已经可以秒杀20%左右的人了(我瞎猜的)&br&这个月就是要升级你的技能,在对已有的知识基础上做一个升华。本月任务较重,小伙伴需要动脑和动手的地方比较多。&br&&br&第一个星期:《数据挖掘导论》这本书绝对是一本良心教材。拿到手从第一章开始阅读,在一个星期之内能看多少就看多少。但是要尽量多看点,因为此书你可能要看一辈子的~~不要做笔记,因为你做的笔记大部分时间都是在抄书,没啥意思的。数据挖掘可不是记忆的东西,是要靠理解的!&br&&br&第二个星期:来来来,python大法学起来。正所谓 life is short, I use python. 不要问那种烂大街的问题:R和PYTHON哪个好。
等你都学了,你就再也不会问这个问题了。 《利用PYTHON进行数据分析》是你学习PYTHON的不二之选,对着书,着重学习numpy,pandas两个包! 对了,也要学会怎么安装PYTHON这也是技术活!&br&&br&第三个星期:为毛感觉前两个星期啥也没学到?乱七八糟的!
没事,这是正常的,难道你指望两个星期就能学完数据挖掘吗?
在此,你已经有了一定的Python,统计学,数据挖掘基础知识,那么是不是能够讲它们组合起来用一用呢?
scikit-learn,你值得拥有。 看不懂没关系,先去看看它们的文档以及那些莫名的专业词语。 然后接着学你的数据挖掘和PYTHON。&br&&br&第四个星期:重复第三个星期的内容。对了,你是不是应该对R再做点事情呢?&br&&br&&b&第三阶段:准备一个小小的毕业吧&/b&&br&前两个月会过的很痛苦,很累,很烦躁!不用担心,你终于来到了第三个月,这个月与前两个月完全不一样,因为这个月会更加更加的痛苦!!&br&在这个月,我们需要开始学习sql的相关知识。SQL绝对是数据分析师的必备技能,没有之一。作为这个星球上一个通用的语言,它的存在使得我们进行数据处理时大大的提高了效率。既然SQL学了,那也就学学mysql吧,这是一个存储数据的东西,你说它重不重要呢?
这两个并不难学,稍微花点功夫就能入门了。&br&本月重点是重复第二个月的工作啊,继续研究统计学、数据挖掘、PYTHON还有那可爱的R语言。怎么研究? 这个还要来问我吗? 书单都在上面了~ 看着书复习就行。 不要忘了那个神技:scikit-learn&br&&br&对了,如果你想去互联网公司投份简历,记得要把《网页分析》这本书好好的过一遍,相信我,你只要看一遍,就能打败百分之80 的面试官。因为他们压根看不起GA。&br&&br&你看,三个月入门数据分析师,并不是不可能嘛~~ 我敢说,你这三个月学到的知识已经可以击败一大半的所谓的数据分析师们了~~ Do not ask why, Just do it !!&br&&br&我和我的一群英国小伙伴创建了一个微信公众号:&b&soton2014sky&/b&&br&就是和你们一起探索数据分析哇,现在好像已经有好几千人了,你难道不要来逛一圈么?&br&&br&扫一扫,即刻添加:&br&&p&&a href=&//link.zhihu.com/?target=http%3A//weixin.qq.com/r/t0xgeH-EQiI9rTsb9xml& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&weixin.qq.com/r/t0xgeH-&/span&&span class=&invisible&&EQiI9rTsb9xml&/span&&span class=&ellipsis&&&/span&&/a& (二维码自动识别)&/p&
我和很多人一样,不太喜欢快速这个词,急于求成的结果是得不偿失。 在这里,我将题主的“快速”理解为如何在最短的时间内高效率的成为数据分析师。我想这才是题主的初衷吧! 首先,成为任何一个技术型工作的从业者最需要的就是掌握相关的专业技能,因此也可…
&blockquote&毕业后工作的成长速度差异是如何造成的?&/blockquote&&p&这是一个很好的问题。我觉得主要有以下十个因素造成的。&/p&&h2&一、平台,或者说行业选择。&/h2&&p&平台的重要性不言而喻。&/p&&p&好的平台就像一个火箭,差的平台就像一辆板车(不仅不能让你进步,还拖累你,让你拉着走,自己体会)。&/p&&p&我身边有两个人毕业自同样一个学校,一个去了四大会计事务所,另外一个去了中建的一个工地。四年后,去了四大的已经跳到基金公司做了小头头(四大的工作背景在金融业很不错的),年收入加上奖金据说将近50万。在工地上的还是没什么变化,正在准备考一级建造师,收入7000一个月吧(已经算高的了)。考完一建,他的领导也才三十多岁,估计爬上去也是很难。&/p&&p&长远看,我觉得两个人的差距还会加大。&/p&&p&&br&&/p&&h2&二、下班后你在做什么?&/h2&&p&成功取决于八小时之外你所做的事情,这点我深有体会。&/p&&p&在读书的时候,我还纳闷,为什么考证的那些考试都是只要及格就行了,每年通过率还那么低?(低于5%)。&/p&&p&后来工作后才发现,真的是没有时间去看书啊,大多数人上班后都会发现,上班真的不轻松,工作多,任务重,应酬多。所以考证的难度无形中就加大了。&/p&&p&但是总有一些人意志坚定,在休息时间看书,下班了看书,周末了还看书,早早考出行业里面的金子证书,然后开事务所。&/p&&p&不光光是考证,还得自我成长吧。周末去上个MBA。周末参见个读书会。平时考个雅思。下班去见行业精英,打造自己的行业私人圈子。&b&然后内推、升职、拿单子都是顺其自然的事情了。&/b&&/p&&p&&b&人生是需要积累的。你如果能坚持在工作时间之外不断提升自己,你和别人的差距就会不断拉大。&/b&&/p&&p&&br&&/p&&h2&三、你在爬坡的什么位置?&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-bfdef74ac0e3daf_b.jpg& data-rawwidth=&361& data-rawheight=&328& class=&content_image& width=&361&&&/figure&&p&这个非常重要!这个非常重要!这个非常重要!&/p&&p&&b&工作后越来越发现,雪中送炭的少,锦上添花的多。&/b&&/p&&p&如果是爬坡,而你在山脚下,你大喊需要帮忙,往往没有人帮你。&/p&&p&&b&可是,如果你就差一步就要登顶了,大家都愿意帮你的。&/b&&/p&&p&所以,你在爬坡的什么位置?你准备了多久?你是否足够努力,足够真诚?&/p&&p&&br&&/p&&h2&四、别人是怎么介绍你的?&/h2&&p&大家有没有想过,你的朋友会怎么介绍你自己?人是很奇怪的,往往我们对自己的感觉和别人对我们的感觉是有差别的。&/p&&p&比如有人介绍我可能会说是同济的研究生。有人会说是一个朋友,然后没了。有人会说是做了一个网站,然后有点想法。可能就像盲人摸象一样,都说了一个局部。&/p&&p&但是我们想想我们是怎么和一个不知道马云的人介绍马云。我们会提到互联网巨头、电商、阿里巴巴、淘宝、十八罗汉。这就是我们对马云的印象,准确简洁。马云的目标也是简洁清晰,那就是让天下没有难做的生意。所以他做淘宝、阿里巴巴、芝麻信用都是围绕这个目标来布局。&/p&&p&让别人知道你想要做什么和正在做什么,非常重要。&/p&&p&别人的介绍就是他对你的印象,是对你的心理画像。&/p&&p&所以我们要尽量让这种印象准确简洁,不模糊不拘泥,生动鲜活同时切合你本人的目标。&/p&&p&&b&这样做有什么好处?&/b&&/p&&p&可以不断强化这种印象,易于传播和描述,同时也不会混乱。如果你的三个朋友对你的描述各异,那你可能要反思一下了。&/p&&p&&b&和职业发展有什么关系?&/b&&/p&&p&如果一个人有太多想法,经常换工作,那么大家对他的描述就会差别很大,这对职业发展是不利的。应该反思。&/p&&p&&b&目标清晰而专注的人更容易成功!&/b&&/p&&p&&br&&/p&&h2&五、你与什么人同行?&/h2&&p&我个人是一个很受环境影响的人。我相信大多数人也是这样。&/p&&p&比如在考研的时候,我本身是一个散漫的人,但是找到了一个每天作息特别规律的考友。然后和他整天形影不离,之后果然发挥出了学霸模式,考到了四百多分(满分五百分)。&/p&&p&可是工作之后,周围这样的学霸渐渐少了,现在感觉考个注册都难的要死!&/p&&p&有句话说的是,如果你想走得快就一个人走,如果你想走的远就一群人一起走。&/p&&p&我觉得说的太好了!&/p&&figure&&img src=&https://pic1.zhimg.com/v2-693c4dcecbace23c85e90_b.png& data-rawwidth=&549& data-rawheight=&323& class=&origin_image zh-lightbox-thumb& width=&549& data-original=&https://pic1.zhimg.com/v2-693c4dcecbace23c85e90_r.png&&&/figure&&p&&br&&/p&&p&&b&挑准你的队友,然后一起看更远的风景!这样的话,在职场中你会成长的更快!&/b&&/p&&p&&br&&/p&&h2&六、你需要贵人!&/h2&&p&贵人是什么样的人?&/p&&p&&b&关键时刻拉你一把的人,点拨你的人!&/b&&/p&&p&什么是关键时刻?&/p&&p&&b&爬坡快爬到顶的时刻(参照本回答第三点)。&/b&&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7d6bc2a84fa35f3bbc0facf_b.jpg& data-rawwidth=&311& data-rawheight=&240& class=&content_image& width=&311&&&/figure&&p&&br&&/p&&p&总结:&/p&&p&贵人很忙的!&/p&&p&天助自助者!&/p&&p&你得不断努力,才有可能遇到贵人。&/p&&p&&b&以绝大多数人努力程度之低,根本没有机会遇到贵人!&/b&&/p&&p&&br&&/p&&h2&七、你在什么圈子?&/h2&&p&有一个说法,你的收入是你经常一起玩的五个人的平均值。&/p&&p&&b&同样,你的成长速度也是你经常玩的五个人的平均值。&/b&&/p&&p&圈子很重要!可以是行业精英圈子,可以是不同行业跨界的交流圈子,可以是校友圈、同事圈、老乡圈。&/p&&p&&b&找到你的圈子,并加入进去!如果你周围没有,组织一个!&/b&&/p&&p&&br&&/p&&h2&八、你的职业生涯需要考虑到杠杆!&/h2&&p&人一天只有24小时,如果你是那种特别努力的,那种一直加班,睡在办公室的,你也只有24小时。&/p&&p&&b&你最多比你同事多做50%的工作量,如果是80%,那么你可能就要猝死了!&/b&&/p&&p&所以,你需要用你有限的时间去撬动更多的资源,产生更多的价值!&/p&&p&我问你,为什么世界上有资本家?他们为什么可以在短短时间内聚集普通人几辈子都赚不到的财富?&/p&&p&&b&因为他们的时间不是花在重复性的脏活累活上,他们的时间花在撬动和配置资源上。&/b&&/p&&p&他们一方面是最出色的销售,掌握政府的政策动态,了解客户的需求。另外一方面,花极低的薪水雇来那些刚刚毕业的大学生,去帮他们做重复简单的工作。&/p&&p&&b&那些朝九晚五的小白领,和旧时代剿丝厂的苦难工人,有什么区别呢?&/b&&/p&&p&什么时候考虑到杠杆?&/p&&p&当你有资源可以调配的时候,当你有足够的能力和清晰的目标的时候。&/p&&p&&b&怎么样加杠杆?&/b&&/p&&p&参加社交聚会,拓展项目来源。&/p&&p&开公司,雇佣打工者。&/p&&p&融资,用别人的钱赚钱。&/p&&p&发展你的分销商,让别人帮你跑腿。&/p&&p&雇佣销售,让别人帮你拓展业绩。&/p&&p&发展供应商,让别人帮你加工产品。&/p&&p&。。。。。。。&/p&&h2&九、&b&不要有打工者心态!&/b&&/h2&&p&打工者心态就是说,反正这公司又不是我的,我只拿我那些薪水。我给你打工,你付工资,工资给得多就多做一点,工资给得少就少做一点。你出一分钱,我做一点工作,多一点工作我不干,多一份责任我不担。&/p&&p&&b&工作后,你做的事,就是你的脸面,就是你的名片。你会允许你的脸脏脏的去见人吗?&/b&&/p&&p&你可以把这件事当做一份工作,也可以当做一个锻炼你的机会。&/p&&p&还有,如果工作一直都只是重复性的没有意义的,无法实现你的目标的dirty work,拒绝!如果无法拒绝,考虑换工作。&/p&&p&你必须要有成长,有收获,这是你工作的目的。&/p&&p&&b&勇士,去不断磨练你最锋利的那把剑!&/b&&/p&&p&&br&&/p&&h2&十、成功是有节奏的,先完成一个小目标!&/h2&&p&&b&对年轻人,时间永远站在你的这一边。你有足够的时间去试错,这是你的最大资本。&/b&&/p&&p&这不是鸡汤。&/p&&p&三年可能很短,也很长。&/p&&p&我觉得毕业生刚刚毕业的三年所经历的事情,会对他的职业生涯有很大的影响。&/p&&p&为什么我们一直强调职业规划,虽然变化多,但是还是要有规划?&/p&&p&因为成功是有节奏的!&/p&&p&我在上学的时候就发现,为什么有的人一会儿就是演讲比赛冠军,然后又拿到数学竞赛冠军,然后拿到国奖,然后拿到名校offer!人生好像是开挂一般,一直顺顺当当。&/p&&p&成为校园的风云人物!&/p&&p&&b&因为他一直在一个成功的节奏上!&/b&&/p&&p&而你,小透明,小白一个,一直到毕业,别人可能都叫不全你的名字!这是真的!&/p&&p&他可能准备了很久,可能在黑夜里排练了无数遍,但是他脑中是有一个画面的,就是自己在领奖台上,自己拿到国奖的喜悦,自己拿到offer欢呼跳跃的样子。&/p&&p&为了这种幸福的画面早点实现,他蛰伏,他等待,他不断努力!直到实现目标!&/p&&p&一个个小目标的实现,让他的生活有了一种节奏感!&/p&&p&这种节奏感,让他每天去自习室,各种感兴趣的活动都去参加,然后,享受其中的过程,并且做到最好!&/p&&p&这种节奏感,让他在工作之后,依然时时去充电,去考证,去抓住机会!&/p&&p&我问你,&b&你是在享受这个过程嘛?还是在假装活着,在挣扎?&/b&&/p&&p&如果生活是一个游戏,&b&你是一个高级玩家,还是一个肉鸡&/b&,给别人贡献经验值的一个肉鸡?&/p&&p&生活好可怕,有房子车子的压力,也有工作的烦恼,结婚的烦恼。想想就头大!&/p&&p&你可能还没打开这个游戏,就已经胆怯了。&b&一上场,就贡献了经验值,在你脑袋上出现了+1的符号,然后你就game over了。&/b&&/p&&p&要掌握你的生活和职业发展,首先你必须掌握其中的节奏。&/p&&p&这也就是我们常说的仪式感!&/p&&p&&br&&/p&&p&&b&总之,让优秀成为一种习惯!&/b&&/p&&p&&br&&/p&&p&&b&既然看到了这里,就关注知乎邵工吧,这样不会迷路。&/b&&/p&&p&&a href=&https://www.zhihu.com/people/benben2/activities& class=&internal&&知乎最可爱的工程师——邵工&/a&&/p&
毕业后工作的成长速度差异是如何造成的?这是一个很好的问题。我觉得主要有以下十个因素造成的。一、平台,或者说行业选择。平台的重要性不言而喻。好的平台就像一个火箭,差的平台就像一辆板车(不仅不能让你进步,还拖累你,让你拉着走,自己体会)。我身…
我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这个概念。&br&&br&---------------------------------正
文-----------------------------------&br&&br&数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:&br&1. data pre-&br&2. data interpretation;&br&3.data modeling and analysis. &br&这也就是我们做数据工作的三个大步骤:&br&1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;&br&2、我们想看看数据“长什么样”,有什么特点和规律;&br&3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。&br&这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。&br&&br&这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。&br&&br&&ul&&li&&b&R programming&/b&&br&&/li&&/ul&如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:&br&&br&&b&R in action&/b&:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(&a href=&//link.zhihu.com/?target=http%3A//cran.r-project.org/doc/contrib/usingR.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&cran.r-project.org/doc/&/span&&span class=&invisible&&contrib/usingR.pdf&/span&&span class=&ellipsis&&&/span&&/a&),stackoverflow上有tag-R的问题集(&a href=&//link.zhihu.com/?target=http%3A//stackoverflow.com/questions/tagged/r& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Newest 'r' Questions&/a&),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。&br&&br&&b&Data analysis and graphics using R&/b&:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。&br&&br&但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:&br&&br&&b&Modern applied statistics with S&/b&:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)&br&&br&&b&Data manipulation with R:&/b&这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。&br&&br&&b&R Graphics Cookbook:&/b&想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。&br&&br&&b&An introduction to statistical learning with application in R:&/b&这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。&br&&br&&b&A handbook of statistical analysis using R:&/b&这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。&br&&br&&br&&ul&&li&&b&Python&/b&&br&&/li&&/ul&&b&Think Python,Think Stats,Think Bayes:&/b&这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。&br&&br&&b&Python For Data Analysis:&/b& 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。&br&&br&&b&Introduction to Python for Econometrics, Statistics and Data Analysis:&/b&这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。&br&&br&&b&Practical Data Analysis:&/b& 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。&br&&br&&b&Python Data Visualization Cookbook:&/b& 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。&br&&br&&br&&ul&&li&&b&Exploratory Data Analysis 和 Data Visualization&/b&&br&&/li&&/ul&&b&Exploratory Data Analysis&/b&:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:&br&&br&&b&Exploratory Data Analysis with MATLAB:&/b&这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。&br&&br&&b&Visualize This&/b&:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫&a href=&//link.zhihu.com/?target=http%3A//flowingdata.com& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&flowingdata.com&/span&&span class=&invisible&&&/span&&/a&的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo(&a href=&//link.zhihu.com/?target=http%3A//cacm.acm.org/magazines/82-a-tour-through-the-visualization-zoo/fulltext& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&A Tour Through the Visualization Zoo&/a&)&br&&br&&br&&ul&&li&&b&Machine Learning & Data Mining&/b&&br&&/li&&/ul&这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。&br&&br&&b&The Element of Statistical Learning:&/b&要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。&br&&br&&b&Data Mining: Concepts and Techniques&/b&, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。&br&&br&其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。&br&&br&&br&&br&还有一些印象比较深刻的书:&br&&b&Big Data Glossary: &/b&主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。&br&&br&&b&Mining of Massive Datasets&/b&:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。&br&&br&&b&Developing Analytic Talent:&/b& 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。&br&&br&&b&Past, Present and Future of Statistical Science:&/b&这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。&br&&br&&ul&&li&&b&其它资料&/b&&br&&/li&&/ul&&b&Harvard Data Science:&/b&这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: (&a href=&//link.zhihu.com/?target=https%3A//drive.google.com/folderview%3Fid%3D0BxYkKyLxfsNVd0xicUVDS1dIS0k%26usp%3Dsharing& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&drive.google.com/folder&/span&&span class=&invisible&&view?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing&/span&&span class=&ellipsis&&&/span&&/a&)和homeworks and solutions: (&a href=&//link.zhihu.com/?target=https%3A//github.com/cs109/content& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&github.com/cs109/conten&/span&&span class=&invisible&&t&/span&&span class=&ellipsis&&&/span&&/a&)&br&&br&&b&PyData:&/b&PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧(&a href=&//link.zhihu.com/?target=http%3A//github.com/DataTau/datascience-anthology-pydata& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&DataTau/datascience-anthology-pydata · GitHub&/a&)&br&&br&&br&&ul&&li&&b&工具&/b&&br&&/li&&/ul&&b&R/Python/MATLAB(必备)&/b&:如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。&br&&br&&b&SQL(必备):&/b&虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。&br&&br&&b&MongoDB(可选):&/b&目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。&br&&br&&b&Hadoop/Spark/Storm(可选)&/b&: MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop是基于MapReduce的框架建立起来的分布式计算系统,Spark在Map Reduce的基础上利用有向无环图构建了RDD,目的就是为了减少Map和Reduce之间的数据交换次数,所以速度就快了。另一个区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。Hadoop因为“历史”最为悠久,有不少技术和产品都是基于Hadoop开发的,所以在较长的时间内Hadoop并不会不会被淘汰。而Spark是目前生态最好,最活跃的分布式框架。如果刚刚起步研究分布式计算,可从Spark入手。&br&&br&&b&OpenRefine(可选):&/b&Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。&br&&br&&b&Tableau(可选):&/b&一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。&br&&br&&b&Gephi(可选):&/b&跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。&br&&br&------------------------------------正
完-----------------------------------------&br&&br&除了比较难找到资料给出链接之外,其余都需要各位自己动手了。也请多多支持正版。&br&&br&&br&刚开通了值乎,欢迎来扰。&br&&p&&a href=&https://www.zhihu.com/zhi/people/956352& class=&internal&&值乎 - 说点儿有用的&/a& (二维码自动识别)&/p&
我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这…
&b&不邀自答!&/b&&br&&b&大数据方向的工作目前分为三个主要方向:&br&&/b&&br&01.大数据工程师&br&02.数据分析师&br&03.大数据科学家&br&04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)&br&&br&由于本人目前是是大数据工程师的角色,我就这个方向做一些介绍&br&&br&&b&本回答目录:&br&一、大数据工程师的技能要求&br&二、大数据学习路径&br&三、学习资源推荐(书籍、博客、网站)&/b&&br&&br&&br&&b&一、大数据工程师的技能要求&/b&&br&&br&附上二份比较权威的大数据工程师技能图(图侵删)&figure&&img data-rawheight=&1058& src=&https://pic3.zhimg.com/v2-2712bddb7af89fb828271e_b.jpg& data-rawwidth=&720& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/v2-2712bddb7af89fb828271e_r.jpg&&&/figure&&br&&figure&&img data-rawheight=&1058& src=&https://pic2.zhimg.com/v2-4ab509dd3cf9cf2a571665_b.jpg& data-rawwidth=&720& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic2.zhimg.com/v2-4ab509dd3cf9cf2a571665_r.jpg&&&/figure&&br&总结如下:&br&&br&必须技能10条:&br&01.Java高级(虚拟机、并发)&br&02.Linux 基本操作&br&03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )&br&04.HBase(JavaAPI操作+Phoenix )&br&05.Hive(Hql基本操作和原理理解)&br&06.Kafka &br&07.Storm&br&08.Scala需要&br&09.Python&br&10.Spark (Core+sparksql+Spark streaming )&br&&br&高阶技能6条:&br&11.机器学习算法以及mahout库加MLlib&br&12.R语言&br&13.Lambda 架构&br&14.Kappa架构&br&15.Kylin&br&16.Aluxio&br&&br&&b&二、学习路径&/b&&br&&br&由于本人是从Java开发通过大概3个月的自学转到大数据开发的。所以我主要分享一下自己的学习路劲。&br&&br&第一阶段:&br&01.Linux学习(跟鸟哥学就ok了)&br&02.Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)&br&&br&第二阶段:&br&03.Hadoop (董西成的书)&br&04.HBase(《HBase权威指南》)&br&05.Hive(《Hive开发指南》)&br&06.Scala(《快学Scala》)&br&07.Spark (《Spark 快速大数据分析》)&br&08.Python (跟着廖雪峰的博客学习就ok了)&br&&br&第三阶段:&br&对应技能需求,到网上多搜集一些资料就ok了,&br&&br&我把最重要的事情(要学什么告诉你了),&br&剩下的就是你去搜集对应的资料学习就ok了&br&&br&当然如果你觉得自己看书效率太慢,你可以网上搜集一些课程,跟着课程走也OK 。这个完全根据自己情况决定。如果看书效率不高就很网课,相反的话就自己看书。&br&&br&&b&三,学习资源推荐:&/b&&br&&br&01.Apache 官网&br&02.Stackoverflow&br&04.github&br&03.Cloudra官网&br&04.Databrick官网&br&05.过往的记忆(技术博客)&br&06.CSDN,51CTO &br&07.至于书籍当当一搜会有很多,其实内容都差不多。&br&&br&最后但却很重要一点:要多关注技术动向,持续学习。&br&&br&&br&&br&这么快破百赞了,又有了持续输出干货的动力。&br&&b&&br&&/b&&figure&&img data-rawheight=&297& src=&https://pic2.zhimg.com/v2-7f5d05b625_b.png& data-rawwidth=&477& class=&origin_image zh-lightbox-thumb& width=&477& data-original=&https://pic2.zhimg.com/v2-7f5d05b625_r.png&&&/figure&
不邀自答! 大数据方向的工作目前分为三个主要方向:
01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 由于本人目前是是大数据工程师的角色,我就这个方向做一些介绍 …
&b&数据挖掘:What?Why?&/b&&b&How?&/b&&br&这个问题思考了很久,作为过来人谈一谈,建议先看下以前的一些回答。&br&&ul&&li&&a href=&http://www.zhihu.com/question//answer/?group_id=& class=&internal&&什么是数据挖掘?&/a&&br&&/li&&li&&a href=&http://www.zhihu.com/question//answer/?group_id=& class=&internal&&怎么培养数据分析的能力?&/a&&br&&/li&&li&&a href=&//link.zhihu.com/?target=http%3A//zhi.hu/2JPS& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何成为一名数据科学家?&/a&&br&&/li&&/ul&&br&磨刀不误砍柴工。在学习数据挖掘之前应该明白几点:&br&&ul&&li&数据挖掘目前在中国的尚未流行开,犹如屠龙之技。&br&&/li&&li&数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 &br&&/li&&li&数据挖掘本身融合了&b&统计学、数据库和机器学习&/b&等学科,并不是新的技术。&br&&/li&&li&数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)&br&&/li&&li&数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。 &br&&/li&&li&数据挖掘项目通常需要重复一些毫无技术含量的工作。&br&&/li&&/ul&&br&如果你阅读了以上内容觉得可以接受,那么继续往下看。&br&&br&&b&学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。&/b&技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。 &br&&br&&b&一、目前国内的数据挖掘人员工作领域大致可分为三类。&/b&&br&&ul&&li&1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。&br&&/li&&li&2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。&/li&&li&3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。&/li&&/ul&&br&&b&二、说说各工作领域需要掌握的技能。 &/b&&br&&b&(1).数据分析师&/b&&br&&ul&&li&需要有深厚的数理统计基础,但是对程序开发能力不做要求。&/li&&li&需要熟练使用主流的数据挖掘(或统计分析)工具如&a href=&//link.zhihu.com/?target=http%3A//www.sas.com/en_us/home.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Business Analytics and Business Intelligence Software&/a&(SAS)、&a href=&//link.zhihu.com/?target=http%3A//www.spss.com.cn/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SPSS&/a&、EXCEL等。&/li&&li&需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。&/li&&li&经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。&br&&/li&&/ul&&b&(2).数据挖掘工程师&/b&&br&&ul&&li&需要理解主流机器学习算法的原理和应用。&/li&&li&需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。&/li&&li&需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。&/li&&li&经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。&br&&/li&&/ul&&b&(3).科学研究方向&/b&&br&&ul&&li&需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透&a href=&//link.zhihu.com/?target=http%3A//ishare.iask.sina.com.cn/f/7474645.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&数据挖掘10大算法&/a&各自的使用情况和优缺点。&br&&/li&&li&相对SAS、SPSS来说R语言更适合科研人员&a href=&//link.zhihu.com/?target=http%3A//www.r-project.org& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The R Project for Statistical Computing&/a&,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。&/li&&li&可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM&a href=&//link.zhihu.com/?target=http%3A//blog.csdn.net/fansy1990/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&云算法调用平台--web 工程调用hadoop集群&/a&。&br&&/li&&li&需要广而深的阅读世界著名会议论文跟踪热点技术。如&a href=&//link.zhihu.com/?target=http%3A//www.kdd.org/kdd2014/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&KDD&/a&,&a href=&//link.zhihu.com/?target=http%3A//icml.cc/2014/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ICML&/a&,&a href=&//link.zhihu.com/?target=http%3A//ijcai13.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&IJCAI&/a&,&a href=&//link.zhihu.com/?target=http%3A//www.aaai.org/home.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Association for the Advancement of Artificial Intelligence&/a&,&a href=&//link.zhihu.com/?target=http%3A//icdm2013.rutgers.edu/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ICDM &/a&等等;还有数据挖掘相关领域期刊:&a href=&//link.zhihu.com/?target=http%3A//tkdd.acm.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&ACM Transactions on Knowledge Discovery from Data&/a&,&a href=&//link.zhihu.com/?target=http%3A//www.computer.org/portal/web/tkde& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&IEEE Transactions on Knowledge and Data Engineering&/a&,&a href=&//link.zhihu.com/?target=http%3A//jmlr.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Journal of Machine Learning Research Homepage&/a&,&a href=&//link.zhihu.com/?target=http%3A//ieeexplore.ieee.org/xpl/RecentIssue.jsp%3Fpunumber%3D34& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on&/a&等。&br&&/li&&li&可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如&a href=&//link.zhihu.com/?target=http%3A//www.sigkdd.org/kddcup/index.php& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Sig KDD &/a&,&a href=&//link.zhihu.com/?target=https%3A//www.kaggle.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Kaggle: Go from Big Data to Big Analytics&/a&等。&br&&/li&&li&可以尝试为一些开源项目贡献自己的代码,比如&a href=&//link.zhihu.com/?target=https%3A//mahout.apache.org/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Apache Mahout: Scalable machine learning and data mining&/a& ,&a href=&//link.zhihu.com/?target=https%3A//github.com/myrrix/myrrix-recommender& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&myrrix&/a&等(具体可以在&a href=&//link.zhihu.com/?target=http%3A//sourceforge.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&SourceForge&/a&或&a href=&//link.zhihu.com/?target=https%3A//github.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub.&/a&上发现更多好玩的项目)。&br&&/li&&li&经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。&br&&/li&&/ul&&br&&b&三、以下是通信行业数据挖掘工程师的工作感受。&/b&&br&&br&真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。&br&&br&说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看, 比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高打6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对一个人的迷你项目很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘项目实践,你说没有好的沟通能力行吗?&br&&br&数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。&br&&br&另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是历史发展的必然。&br&&br&讲到移动方面的实践案例,如果你是来自移动的话,你一定知道国内有家叫华院分析的公司(申明,我跟这家公司没有任何关系,我只是站在数据挖掘者的角度分析过中国大多数的号称数据挖掘服务公司,觉得华院还不错,比很多徒有虚名的大公司来得更实际),他们的业务现在已经覆盖了绝大多数中国省级移动公司的分析挖掘项目,你上网搜索一下应该可以找到一些详细的资料吧。我对华院分析印象最深的一点就是2002年这个公司白手起家,自己不懂不要紧,一边自学一边开始拓展客户,到现在在中国的移动通讯市场全面开花,的确佩服佩服呀。他们最开始都是用EXCEL处理数据,用肉眼比较选择比较不同的模型,你可以想象这其中的艰难吧。&br&&br&至于移动通讯的具体的数据挖掘的应用,那太多了,比如不同话费套餐的制订、客户流失模型、不同服务交叉销售模型、不同客

我要回帖

更多关于 应届生求职网 日语 的文章

 

随机推荐