数据分析那些事
什么是数据处理
数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式;
数据处理的目的
数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据;
数据处理包括哪些
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法
什么是数据分析
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效的结论
数据分析与数据处理的区别
数据处理是数据分析的基础、通过数据处理,将收集到的原始数据转换为可以分析的数据,并保证数据分一致性和有效性;
数据处理也称数据清洗(ETL),一般收集数据时,所到手的数据存在各种各样的问题,如:乱码、空值、异常值等等,我们需要先将他经过处理,移除、转换后再做分析;
如果数据本身存在错误,那么及时采用最先进的分析方法,得到的结果也是错误的,不仅不具备任何参考价值、甚至还会误导决策。
数据分析与数据挖掘的关系
数据挖掘其实是指更高级的数据分析方法。
数据挖掘就是从大量的数据中挖掘出有用的信息,他是根据用户的特定要求,从海量数据中找出所需的信息,以满足用户的特定需求。
数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测;
数据分析与数据挖掘本质是一样的,都是从数据里面发现关于业务的知识。
什么是数据展现,数据展现的目的是什么
一般情况下,数据视同过表格和图形的方式来呈现的。
常用的数据图表包括饼图、条形图、柱形图、折线图、散点图、雷达图等;
一般分析中不要使用过于复杂的图表、以免增加理解难度、图表应当让用户一眼能看出其中想要呈现的重点内容;
大多数情况下,人们更愿意接受图形的这种展现方式,因为他更加有效、直观的传递出分析师所要表达的观点,一般情况下能用图形说明的问题就不用了表格,能用表格说明的问题就不用文字;
撰写数据报告
数据分析报告是对整个数据分析过程的一个总结与呈现,通过报告,把数据分析的起因、过程、结果及建议完成的呈现出来,供决策参考。
数据分析报告是通过对数据全方位的科学分析来评估运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力;
一份好的数据分析报告、首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。
数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,分析的目的就是为了寻找或者求证一个结论菜进行分析的,千万不要舍末求本。
分析常用的指标和术语
一、平均数
平均数就是一组数据的算术平均数,即:全部累计相加后除以数据个数。
算术平均数是数据分析中常用的基础性指标,他的特点是将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体内各单位的差异;
二、绝对数与相对数
绝对数反应客观现象总体在一定时间、地点条件下的总规模,总水平的综合性指标,也是数据分析中常用的指标,如:GDP,总人口等。
此外,绝对数也可以表现为在一定时间地点条件下数量增减变化的绝对数,如A国人口比B国人口多1000万人
相对数是指有两个有联系的指标对比计算而得到的数值,用客观现象之间数量联系程度的子能够和指标。
计算相对数基本公式:
$$
相对数 = \frac{比较数值(比数)}{基础数值(基数)}
$$
三、百分比与百分点
百分比是相对数的一种,他表示一个数是另一个数的百分之几,也称百分率或百分数。
百分比通常采用百分号(%)来表示,如:8%, 50%, 168%等,由于百分比的分母都是100也就是都以 1% 作为度量单位,因此便于比较。
百分点是指不同时期以百分数形式表示相对指标的变动幅度,1个百分点 = 1%。
表示构成的变动幅度就应该使用百分点来表示,比如:公司今年的利润是45%,比去年的28%提高了17个百分点。
四、频数与频率
频数是指一组数据中个别数据重复出现的次数。
如:一个班级一共50人,按性别分组,其中男同学的频数为30,女同学的频数为20.
频率是每组类别的次数与总次数的比值,他代表某类别在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。
如:30名男同学在50名同学中出现的频率为60%,即(30÷50)X 100%;而20个女同学在50名同学中出现的频率为40%,即(20÷50)*100%;
所以说:频数是绝对数,频率是相对数。
五、比例与比率
比例与比率都术语相对数。
比例是指在总体中各部分的数值占全部数值的比重,通常反应总体的构成和结构。
如:一个班级一共50人,男生30人,女生20人,则男生的比例是30:50,女生的比例是20:50。由此可看出,比例的基数(也就是分母)都是全体学生,即为同一个基数。
比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体占部分之间的关系。
如:男生30人,女生20人,则男生与女生之间的比率是30:20.
这一指标经常会用在社会经济领域,比如我国的人口性别比就是用每100名女性数量相对的男性数量来表示的。
比率(ratio)是样本(或总体)中各不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。
六、倍数与番数
倍数与番数同样属于相对数
倍数是一个除以另一个数所得的商。
比如A÷B=C,就是说A是B的C倍。
注:倍数一般表示数量的增长或上升幅度,而不适用于表示数量的减少或者下降。
番数是指原来数量的2的N次方倍。
比如翻一番为量来数量的2倍(21),翻两番为4倍(22)。
七、同比与环比
同比是指本期与历史同时期进行比较的数值,该指标主要反映的是事务发展的相对情况。
例如2020年12与2019年12月相比较。
环比是指本期与前一个统计期进行比较得出来的数值,该指标主要反映的是事务逐期发展的情况。
例如2019年12月与2019年11月相比。
同环比算法
$$
环比 = \frac{2019-11}{2019-12}
$$
$$
同比 = \frac{2019-12}{2020-12}
$$
文内提到的IT术语:
一、ETL(数据清洗):
ETL 是 Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,一般这个过程被称之为数据清洗;
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
二、决策:
决策,指决定的策略或办法。是人们为各种事件出主意、做决定的过程。它是一个复杂的思维操作过程,是信息搜集、加工,最后作出判断、得出结论的过程
决策技术是指决策者在决策过程中所应用的手段、方法和组织程序的总和。决定决策过程的不同特点,形成不同质的决策类型–经验决策和科学决策。
简单的来说,决策就是决策者(一个人或者一个团队)对一件事、或一个大方向的确认,通过数据所呈现的趋势、特点为决策者提供依据;
三、一致性
一致性就是数据保持一致,在分布式系统中,可以理解为多个节点中数据的值是一致的。同时,一致性也是指事务的基本特征或特性相同,其他特性或特征相类似
四、有效性
有效性是指完成策划的活动和达到策划结果的程度。市场调查中,有效性指试图要测量的事物实际上是真正要测量的。 其中 实验的有效性指实际的测量正是我们试图要测量的东西。 测量的有效性指的是测量仪器不受系统误差和随机误差的约束程度。