CP01
数据分析是指用适当的统计反洗方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用
它是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
数据分析可以分为:
描述性数据分析
探索性数据分析,侧重于在数据之中发现新的特征
验证性数据分析,侧重于验证已有假设的真伪证明
常见方法:
描述性数据分析:对比分析法、平均分析法、交叉分析法等
探索性数据分析和验证性数据分析属于高级阶段,有相关分析、因子分析、回归分析等
三大作用
现状分析 过去发生什么了
揭示企业现阶段的整体运营情况,并衡量运行状态
揭示业务的构成,了解企业各项业务的发展及变动情况,对企业运营状况有更深入的了解
原因分析 为什么发生
一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析
预测分析 将来会发生什么
一般通过专题分析来完成,通常在制定企业季度、年度计划时使用
六步曲
明确分析目的和思路
分析前要明确:
为什么要开展数据分析?
通过这次数据分析我要解决什么问题?
确定分析思路
梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标
分析体系化
所谓的分析体系化,即逻辑化,先要分析什么、后分析什么,使得各个分析点之间具有逻辑联系
体系化方法
使用相关领域的只是,如营销、管理等理论,结合业务情况,搭建分析框架
数据收集
这是按照确定的数据分析框架,收集相关数据的过程,它为数据提供了素材和依据
数据处理
是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段
目的是从大量、杂乱无章、难以理解的数据中,抽取并推到出对解决问题有价值、有意义的数据
处理过程:数据清洗、数据转化、数据提取、数据计算等处理方法
将原始数据转换为可以分析的形式,并且保证数据的一致性和有效性
数据分析
用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
一般是通过软件完成,所以不仅要掌握数据分析方法还要熟悉主流数据分析软件的操作
数据分析与数据挖掘本质是一样的,即从数据里面发现关于业务的只是
数据挖掘是高级分析方法:它根据用户的特定要求,从海量数据中找出所需的信息,以满足用户的特定需求。
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律
数据展现
将数据通过表格或图形方式来呈现
尽量使用图表而不是表格
报告撰写
通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
首先要有一个好的分析框架,并且图文并茂、层次明晰,让阅读者一目了然
另外要有明确的结论
最后一定要有建议或解决方案
三大误区
分析目的不明确,为分析而分析
缺乏业务知识,分析结果偏离实际
一味追求实用高级分析方法, 热衷研究模型
数据分析师要求
懂业务、懂管理、懂分析、懂工具、懂设计
数据分析师基本素质
态度严谨负责、好奇心强烈、逻辑思维清晰、擅长模仿学习、勇于创新
倍数 一个数除以另一个数所得的商,A/B=C,表示A是B的C倍
番数 原来数量的2的N次方倍,翻两番为4倍(2的2次方)
——————————————————————————————
CP02 结构为王——确定分析思路
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路
数据分析方法论:主要从宏观角度指导如何进行数据分析
数据分析方法:指具体的分析方法,从微观角度指导如何进行数据分析
只有在营销、管理等方法和理论的指导下,结合业务情况,才能确保数据分析维度的完整性,分析结果的有效性及正确性
数据分析方法论作用:
理顺分析思路,确保数据分析结构体系化
把问题分解成相关联的部分,并显示它们之间的关系
为后续数据分析的开展指引方向
确保分析结果的有效性及正确性
常用数据分析方法论
PEST分析法
5W2H
逻辑树分析法
4P
用户行为理论
是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠实用户
——————————————————————————————
CP03 无米难为巧妇——数据准备
扎实的数据分析基本功不单是指挥使用数据分析工具,更重要的是对数据有深入认识和解读。
字段是事物或现象的某种特征,在统计学中被称为变量
记录是事物或现象某种特征的具体表现,也被称为数据或变量值
一张数据表的制作,可以侧面反映出制作者的数据沉淀及应用水平
数据表设计是否合理,关系着后期数据分析的效率即深度
具体设计方法需要了解数据透视表功能
——————————————————————————————
CP04 三心二意——数据处理
三心 信心、平常心、细心
二意 合意、诚意
数据处理步骤
1 数据清洗 就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除
2 数据加工 清洗完毕后所得数据不一定使我们需要的数据,所以需要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据表
数据处理就是根据数据分析的目标,将收集到的数据,用适当的处理方法进行整理加工,形成适合数据分析的要求样式,它是数据分析前必不可少的阶段
数据清洗步骤
1 清除掉不必要的重复数据
请熟悉Excel操作方式和函数
2 填充缺失的数据
缺失值是指数据集中某个或某些属性的值是不完全的
原因有
机械原因,由于数据收集或保存失败造成的数据缺失
人为原因,由于人的主观失误、历史局限或有意隐瞒造成的数据缺失
常见表现形式是:空值或错误标识符
查找之后处理方式
1 样本统计量替代,常用样本平均值代替缺失值
2 用一个统计模型计算出来的值趋替代缺失值
3 删除
4 记录保留
3 检测逻辑错误的数据
逻辑错误 可以用if+count函数来解决
条件格式错误
利用OR或AND函数处理
数据加工
经过上述过程,数据字段不能满足我们对数据分析的需求,所以需要对现有字段进行抽取、计算或转换,形成我们分析所需要的一列新数据字段
数据抽取
是指保留原数据表中某些字段的部分信息,足组合成一个新字段
字段分列:截取某一字段的部分信息
使用数据分裂选项
函数法 LEFT和RIGHT函数
字段合并:将某几个字段合并为一个新字段
concatenate函数和&运算符
字段匹配:将原数据表没有但其他数据表中有的字段有效地匹配过来
vlookup函数
数据计算
简单计算
函数计算
average
dateif
数据分组
vlookup
数据转换
行列互换
多选题几种录入方式转换
Hlookup
search
数据抽样
普通抽样 指对总体中的对象一一进行观察、访问与记录,确定资料
抽样调查 从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析
rand
——————————————————————————————
CP05 工欲善其事必先利其器——数据分析
数据分析不单单指会用数据分析工具,你还必须懂数据分析原理,没有理论的知道,就无法知晓从哪方面入手,要分析哪些关键点
数据分析三大作用
分析作用 基本方法 数据分析方法
现状分析 对比 对比分析、平均分析、综合评价分析
原因分析 细分 分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析
矩阵关联分析、聚类分析
预测分析 预测 回归分析、时间序列、决策树、神经网络…
对比分析
任何事物都是既有共性特征,又有个性特征
只有通过对比才能分辨出事物的性质、变化、发展、与别的事物的异同等个性特征,从而更深刻地认识事物的本质和规律
定义 将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的的事物发展变化情况和规律性
分类 静态比较 在同一时间条件下对不同总体指标的比较,也叫横比
动态比较 在同一总体条件下对不同时期指标数值的比较,也叫纵比
Tips 选取对比对象时需要考虑其是否有对比意义
指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
对比的对象要有可比性
对比的指标类型必须一致
分组分析
不仅要对总体的数量特征和数量关系进行分析,还要深入总体的内部进行分组分析
这种方法是根据数据分析对象的特征,按照一定的标志,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性
目的是便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,一遍进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合运用
关键在于确定组数与组距
结构分析
是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标
平均分析法
运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平
可用于同一现象在不同地区,不同部门或单位间的对比,还可用于同一现象在不同时间的对比
作用
比总量指标对比更具有说服力,更体现差异程度
更能说明发展趋势和规律
交叉分析
通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其数值交叉排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系
综合评价分析
一系列运用多个指标对多个参评单位进行评价的方法,成为多变量综合评价分析方法
步骤
1 确定综合评价指标体系,即包含哪些指标,是综合评价的基础和依据
2 收集数据,并对不同计量单位的指标数据进行标准化处理
3 确定指标体系中各指标的权重,以保证评价的科学性
4 对经处理后的指标再进行汇总,计算出综合评价之术或综合评价分值
5 根据评价指数或分值对参评单位进行排序,并由此得出结论
特点
1 评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成
2 在综合评价过程汇总,一般要根据指标的重要性进行加权处理
3 评价结果不再是具有具体含义的统计指标,而以之术或分值表示参评单位综合状况的排序
数据的标准化是指将数据按比例缩放,使之落入一个小的特定区间
在比较和评价某些指标时,经常会用到数据的标准化,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权
最典型的就是0-1标准化,Z标准化
0-1标准化也叫离差标准化
就是对原始数据做线性表换,使结果落到【0,1】区间
权重确定方法
复杂的有专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法
简单的有目标优化矩阵表
杜邦分析
漏斗图分析
适合一个业务比较规范、周期比较长、个流程环节涉及复杂业务过程比较多的管理分析工具
矩阵关联分析法
非常重要的分析方法与工具
是指根据事物的两个重要属性作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法
在解决问题和资源分配时,为决策者提供重要参考依据
气泡图
高级数据分析方法
《谁说菜鸟不会数据分析》热门书评
-
透过数据看真实的世界
102有用 15无用 秋叶 2011-06-25
假如你不能学会从数据中分析出结论,你就关上了一扇了解真实世界的大门。特别是在这个混杂着伪文艺青年日日编织着商业谎言,准愤怒青年天天转发着时代的怒喊,学一点数据分析绝对让你更心平气和理性面对这个世界。我有一个女性朋友怀疑她的男朋友劈腿了,不爱她了。我告诉她可以花一周时间做两个统计,第一个统计是他不上班...
-
这根本不是一本数据分析的书,就是个Excel使用指南
82有用 4无用 天才狐狸 2011-07-04
本来看看标题还真以为是个分析的入门数,不会做回归分析,不会统计学没有关系,但是最少您也得教会大家怎么解读一份数据报告,什么时候应该用算术均值,什么时候要用方差吧。好妈,就是一个怎么用Excel排序和画图表的手册,写的还不如Excel在线指南,还不如人家那个可以直接Ctrl+C下来用。就是...
-
网站汇总
73有用 0无用 Kid A 2012-10-28
————————————数据分析类论坛————————————中国统计网http://www.itongji.cn数据挖掘学习交流站http://www.businessanalysis.cn数据挖掘研究院http://www.chinakdd.com人大经济论坛http://www.pinggu....
-
一本入门级别的书
9有用 0无用 杨 2011-07-04
比较浅显,适合完全没有Excel或对Excel似懂非懂的人。讲了一些方法论的东西,但是非常的简单,浅尝辄止。不适合已经用了很多年Excel的人。有一些小亮点,但不多。最好的方法是借一本来看看。...
-
最近看了写的一些章节,挺棒!
5有用 0无用 chinamook 2011-06-17
看起来轻松愉快,难得的好东西,轻松之间就能掌握数据分析的技术和技巧,难得的佳作.从一个朋友的鼎力推荐可以看出"不知不觉,做数据分析及数据挖掘工作已经4年多了。还记得当时来EH的目的,就是因为做数据分析需要使用到Excel,后来就混了论坛好几年了。最近,在网上看到这样的一本书《谁说菜鸟不会数...