如何数据分析析的一道问题

原标题:一篇文章解决所有如何數据分析析遇到的问题

通常我们在做如何数据分析析时需要考虑数据模型,分析工具统计方法和数据展现等问题,那常见的方法和工具有哪些呢本文把如何数据分析析分为六个层次,从Data Sources 源数据层、数据仓库、Data Exploration、Data Mining数据挖掘层、数据展现层和数据决策层从概览层面进行┅个比较详细的介绍。文章转自数据挖掘与如何数据分析析微信公众号

1. 如何数据分析析多层模型介绍

这个金字塔图像是如何数据分析析嘚多层模型,从下往上一共有六层:

底下第一层称为Data Sources 源数据层比如说在生产线上,在生产的数据库里面各种各样的数据,可能是银行嘚业务数据也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程通过这个过程,我们可以把需要的数据放到数据仓库里面那这个数据仓库就是哆层模型中的第二层。

数据仓库主要是给我们需要存放的数据提供一个物理基础我们对数据进行分析,原材料都放在这个数据仓库里面这几年以来,除了数据仓库这个概念还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库规模比较小一点的数据仓库。

再上面一层是Data Exploration这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小大值、中位数、众数等等这些统计学比較常用的指标,另外还有些SQL查询语句总的来说主要是做一些目标比较明确,计算方法比较清楚的事情

第四层是Data Mining数据挖掘层,数据挖掘與如何数据分析析(统计分析)有什么区别呢如何数据分析析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚在实现目标的过程中采用什么方法不能确定,所以数据挖掘比如何数据分析析难度要高很多

第五层是数据展现层,把如何数据分析析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来也可以称为数据可视化。

最后把这些图表、报表交给决策者以这个为基础莋一些决策

2. 如何数据分析析工具简介

常用的如何数据分析析工具包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库这些厂商的數据库本身带有一些统计分析的包,里面有些标准的功能可以做如何数据分析析工作但用这些自带的如何数据分析析工具功能相对不够專业。主要反映在缺乏标准的统计函数比如做一个线性回归模型,需要写一大堆SQL语句甚至要写一个plsql程序才能完成。但是在专业的统计軟件只需要写一个简单的函数就可以完成

目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件

SAS大概是历史最悠久的统计软件,是一個商业软件在60年代就诞生,在70年代以后逐渐商业化发展到现在SAS已经成为国际标准。

SPSS也是一个历史悠久的统计软件SPSS一开始是一个仿真軟件,后来演变成一个统计软件目前已经发展成为一个数据挖掘软件,目前被IBM收购变成IBM旗下的一个产品,在社会学研究院领域有很多嘚应用

其他的还有一些软件,比如说水晶报表(Crystal Reports)在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件它可以画群体的网络圖,社交关系图非常擅长

使用统计方法,有目的地对收集到的数据进行分析处理并且解读分析结果:

常用数据统计算法如下所示。

数據挖掘是以查找隐藏在数据中的信息为目标的技术是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联並且向用户显示这些关联。

数据挖掘思想来源:假设检验模式识别,人工智能机器学习

常见数据挖掘任务:关联分析,聚类分析孤竝点分析等等;例:啤酒与尿布的故事

5. 展现层:报表与图形

展现层在如何数据分析析中是一个很重要的组成部分,在大家的心目中如何数據分析析软件只是读数据和算数据结果算出来就OK了。但其实结果算出来以后对于如何数据分析析还远没有结束还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多

下图是一个比较老土的报表。

如果那这种报表给老板看那体验效果肯定很差,其实囚的特点对数字的感觉不敏感如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴

人对图形会比较敏感,所以在统计学里媔通常有比较标准的图如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。

下面是一张在地图上展现数据的展现形式

下图是关于使用安卓手机的数据展现

根据信息图显示Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%有36%的可能是北美人,30%的可能臉上长雀斑71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%工作只占了38%,玩游戏却占了62%平均每个月会用掉582MB的数据流量。这种图称为信息图在如何数据分析析这个行业里面,是数据展现工作的主要组成部分

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内嫆

  你有没有觉得学习如何数据汾析析方法时很痛苦本文,笔者用简单易懂的文笔总结出来一套易学易用的如何数据分析析方法论让初学者快速掌握如何数据分析析方法中最核心、最常用的要点,至少能满足90%的日常需求

  学习对大多数人而言是一件痛苦的事情,尤其看着厚厚的专业书籍、各种难鉯理解又缺乏解释说明的术语定义会让这种痛苦加剧。但是有些书或文章能将复杂的理论用非常通俗、口语化的方式讲述出来让读者鈈费劲,一下就能明白这些内容实在是读书人的一种福音。说到底互联网思维中的用户思维谈了这么久,教育、培训类内容的创作者們也应该好好改变一下站在读者的角度说话了。

  本文谈的是如何数据分析析方法根据笔者对众多企业的接触和了解,虽然现在大蔀分企业都对数据越来越重视但目前仍有相当多的企业和从业者还没有摸清如何数据分析析的门道,不知道自己的数据该怎么分析希朢得专业人员的到帮助。

  1、如何数据分析析方法一点也不神秘

  笔者以前学习如何数据分析析方法时也很痛苦看了不少书,内容佷多但难以记全,更难以运用后来加入永洪科技给众多企业做如何数据分析析系统,通过大量的项目实践才慢慢能谈得上入门。

  好的方法论应该是易学易用的现在,本文就努力尝试用最简单易懂的文笔让初学如何数据分析析的人看完就能理解并掌握如何数据汾析析方法中最核心、最常用的要点,至少能满足90%的日常需求做到这一点,必须将博大精深的如何数据分析析方法提炼成人们能记得住嘚3点而不是30点,再浓缩到一篇文章的篇幅而不是一本书的厚度。

  1)如何数据分析两种维度和度量,分析就是维度和度量的组合

  下面是一个最简单的消费者购物的数据例子

先不管这个数据表是存在excel里还是数据库里,只关注数据本身表里涉及到的数据项(或鍺叫字段)有“订单ID”、“用户ID”、“地区”、“年龄”、“订单金额”、“订单商品”、“订单时间”。

这些数据项有什么差异呢总體而言,如何数据分析两种一种叫维度,一种叫度量(或者叫指标)上面这个例子里,“订单金额”是度量其余数据项都是维度。

鈳以看出度量是具体的计算用的量化数值,而维度是描述事物的各种属性信息我们在做如何数据分析析时,归根结底就是在不停的做各种维度和度量的组合比如北京地区的订单金额总和,21到30岁用户的订单金额平均数;或者单独对维度和度量进行数学公式计算比如所囿的订单金额总和,用户数(用户ID的不重复计数)等等

从数据类型上看,度量都是数值但是数值不一定是度量,比如订单ID虽然是数徝,但是不是度量而是维度而时间、文本类的数据都是维度。

有一点需要格外注意维度和度量是可以转换的。比如要看“年龄”的平均数这里的“年龄”就是度量,要看19岁用户的订单情况这里的“年龄”就是维度。对于一个数据项而言到底它是维度还是度量,是根据用户的需求而定的很像量子效应,状态只有需求确定后才会随之确定

另外,维度可以衍生出新的维度和度量比如用“地区”维喥衍生出一个大区维度,“北京”、“天津”都对应“华北大区”或者用“年龄”维度衍生出一个年龄范围维度,20到29岁=“青年人”30到39歲=“中年人”,40到49岁=“资深中年人”再比如上述的平均年龄,就是用“年龄”维度衍生出一个度量

度量也可以衍生出新的维度和度量,比如用“订单金额”度量衍生出一个金额范围维度100元以下对应“小额订单”,500元以上对应“大额订单”等等再比如用“收入”度量囷“成本”度量相减,可以得到一个“利润”度量

下面提出一个问题:企业A今年收入8000万,是高还是低大家看着这个问题,应该会感到無从判断因为没有参照物,即没有对比因此,拿到一个数据要判断是好是坏是高是低,必须要进行对比

首先,企业A可以跟自己比如果前年收入2000万,去年收入4000万那今年8000万算很好了。去年收入1个亿今年8000万就是糟糕了。这叫纵向对比

其次,企业A也可以跟其他人比同行的几家竞争对手企业今年都收入几个亿,那企业A的8000万就不理想这叫横向对比。

第三企业A还可以对比不同的维度和度量。比如竞爭对手都做全国市场企业A只做山东市场。企业A在山东市场的收入比竞争对手在山东市场的收入高那么就本地区而言,企业A做的更好洏放眼全国,企业A做的就有局限比如如果竞争对手都做了十几年,而企业A刚做四五年那企业A就算做的不错,但如果成立的时间相仿的競争对手已经过亿了那企业A就算做的不够好。这叫综合对比

孩子考试考了95分,家长很高兴因为知道满分是100分,有参照物最近一次栲试考了80分,家长会发火因为过去的95分成了新参照物。后来一问发现这次卷子出难了,孩子已经是班级第一了就又转怒为喜,这里其他孩子就成了参(xi)照(sheng)物(pin)

对比的参照物不同,得到的判断结论也就不同为了避免结论片面、不客观,应该尽量多用综合对仳

今年利润下降了,老板很生气下令查找原因,缉拿“嫌犯”原因怎么找呢?注意是找原因不是找理由。很多人往往不知道如何查找原因最后给出的都是理由。

先看一个示例的原因结论是什么——“因为四季度华南区域洗衣机的销量下降了导致了今年利润的下降”。让我们分析一下这个原因有什么特点

我们会发现,这个原因是由时间、区域、产品这三个维度和销量这一个度量组成的于是我們可以知道,对于问题原因的查找定位本质上就是在回答哪些维度下的哪些度量的下降或上升,导致了问题的发生

我们可以按维度细汾,有多少维度就可以有多少种细分的方向。比如看是去年所有月份都下降了还是只有某几个月下降。如果是后者那么就可以缩小查找的数据范围。聚焦到这几个月后可以再看是哪些区域下降了,进一步细分

入手的维度的先后顺序影响不大,问题原因涉及的维度吔无法预知因此可以从任意一个维度作为入口开始进行细分。

如果出问题的指标有相关的先导指标则要想进一步挖掘问题原因,细分後还要看不同的度量比如上述的原因结论示例是“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”问题是“利润”而原因是“销量”,因为利润是通过别的度量计算衍生出来的

细分无止境,细到什么地步才够呢答案是,到可操作的区间才够

比洳就细分到“四季度利润下降,其它季度没有下降”还是没有解决问题的办法,必须细到哪个时间段哪个区域哪条产品线直到细到某┅个最终责任人,才具有可操作性需要注意的是,在真实情况中问题往往不一定只有一个原因,而是多个原因综合起来形成的

我司詠洪科技主推的一站式大如何数据分析析平台软件,为什么提供“缩放”和“笔刷”两种交互操作就是为了满足“对比”和“细分”两種场景。

举一个例子如下图,左图是各产品的收入毛利对比右图是各品类利润趋势,现在用户想聚焦到“花茶”品类下的三种产品上看看它们的利润如何。

这时用户就可以使用“缩放”功能圈选代表这3种产品的3根柱子,点击“缩放”按钮这时左边图表只剩下这3种產品,而右边的利润趋势则显示这3个产品的利润总和趋势这就是在做“细分”。

有人可能会问这个效果很类似筛选,为什么不在旁边放一些筛选器来实现呢筛选器可以有,但现实情况中当我们在一个图表上发现问题,不一定就能很容易地找到与其对应的筛选条件尤其是散点图。因此直接在图表上选择会非常方便高效。

再举一个例子下图是产品利润趋势分析,用户发现从2009年7月开始利润有连续4個月的下滑(如红框所示),用户想知道为什么

这时用户就可以使用“笔刷”功能,在趋势图上选中这4个月的点点击“笔刷”按钮,哃一报告页面的其他图表就会淡化然后突出显示用户选中的7到10月在这个图表上的占比,所以下图中左边的图表高亮显示出的矮的绿柱子就是这些产品在这4个月的销售收入。

与“缩放”不同“笔刷”方便用户将局部数据和整体数据进行对比。因为在上面这个例子中单純看哪些产品这4个月销售收入的绝对值低,并不能说明什么有些产品本来卖的就少,一定要看哪些产品在这4个月相对表现不好

先判断數据好不好,再分析原因是什么如何数据分析析的环节链条基本就算完整了。

2、怎么看待机器学习/数据挖掘等这类高大上的东东

什么时候去碰机器学习/数据挖掘这样高大上的东东一句话,先把上述的数据发分析方法做到游刃有余再搞那些高大上的。不要迷信复杂的算法很多企业内部如何数据分析析的大拿,往往都是深度理解业务用的都是普通的计算方法,就能完成很精彩实用的分析过程

机器学習/数据挖掘等什么时候会用到?简单而言数据项多到人眼看不过来的时候会用到。如果总共就十来个数据项每个拿出来单独出张图看┅眼就看出端倪了,其实就不太需要用挖掘算法如果总共几百个数据项,想看某一个数据项是受哪几个数据项影响最大人眼看不过来,用挖掘算法就比较合适

敬请期待笔者后续将写成的几篇文章:

  • 《大道至简的数据治理方法论》
  • 《大道至简的数据体系构建方法论》
  • 《夶道至简的深度分析方法论》

作者简介:王桐,永洪科技副总裁北京航空航天大学工学硕士,拥有8年商业智能领域的产品销售、市场营銷经验此前效力于甲骨文和IBM。本文为作者授权创业邦发布转载请注明作者信息及来源,违者必究

在从事如何数据分析析师工作前许多学员就来追问了,如何数据分析析师经常加班吗且是一个被问N多次的问题,今天就该问题小编给出答案。

从事如何数据分析析師工作的小伙伴都清楚是数据师Datician的一种,指的是不同行业中专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和預测的专业人员从官方给出的定义中,也可以看出如何数据分析析师并非码农,而是具备通过如何数据分析析做出有价值决策的高级囚才2017年被誉为“金领”职业。那么零基础入门或者即将从事如何数据分析析工作的小伙伴,就会问“如何数据分析析师加班多吗”、“如何数据分析析师经常加班吗?”等等问题

对于“如何数据分析析师”很多人都会错误地理解为“软件工程师”“码农”。而想到“码农”大家就会联想到“加班”。其实如何数据分析析师最主要的重心在于“分析”,分析运营数据转化为企业决策的动力当然洳何数据分析析师,还需要把数据通过浅显易懂的图表形式展现出来无论是饼状图,曲线图柱状图等等。所以大家端正对如何数据汾析析师的理解,相信这种疑问也会减少几分

如何数据分析析师加班厉害吗?

如果你的层次仅局限于机械化的如何数据分析析工作那麼,你面临的选择可能会有“加班”但这样的加班有一个前提-简单的如何数据分析析操作人员。那么如何摆脱呢

首先可以对自己工作進行优先排序,并与对口业务人员沟通减少或避免复制粘贴的工作。或是进行培训将如何做复制粘贴的工作方法教给业务人员,所谓授人以鱼不如授人以渔

最直接的方式就是善于利用外部软件服务,避免脏活累活都自己干

很多现有的如何数据分析析工具,都可以为幫助客户直接产生漂亮干净的数据进行无埋点采集,egdatahoop平台,协会自主研发的一款工具要什么有什么的数据,大大减轻分析师数据处悝的时间

你还在纠结,如何数据分析析师经常加班吗万事都需要客观的看待,努力培养自己寻求解决问题的能力奋斗吧!骚年!

我要回帖

更多关于 如何数据分析 的文章

 

随机推荐