数据分析的方法有哪些,如何自学数据分析并找到工作

在大数据时代,数据分析被广泛的重视,因为数据分析是数据价值化的主要渠道之一数据分析的方法有哪些。数据分析有多种形式,下面做一个简单的描述:

数据分析的方法有哪些,如何自学数据分析并找到工作

第一:通过工具做好数据分析。通过工具做数据分析是在生产条件下比较常见的方式,比如Excel就是一个比较常见的数据分析工具。另外,很多BI工具也可以进行数据分析任务。通过软件工具进行的数据分析需要掌握一定的数学基础和统计学基础,BI工具则还需要掌握数据库相关知识(主要就是Sql语言)。这种分析方式比较快捷,适用于模型比较固定的数据分析场景。

第二:通过编程来做好数据分析。还有一种方式就是通过编程语言来完成数据分析任务,这种情况主要是针对数据量比较大的情况,另外,数据分析任务不是很明确的情况下,也就是说模型比较动态的情况。目前通过机器学习的方式完成数据分析是比较常见的解决方案,而编程语言往往采用Python。Python语言有丰富的库可以使用,包括Numpy、Matplotlib、Scipy、pandas等库,这些库在数据分析和机器学习领域有广泛的应用。

第三:结合的方式。目前数据分析也会根据具体的应用场景做结合型的数据分析,对于场景比较固定的数据分析任务采用工具来完成,毕竟这种方式比较便捷,而且数据分析结果也往往有丰富的呈现方式。对于其中需要进行动态分析的数据采用编程的方式进行,这就是所谓的结合方式,也就是说在工具的基础上进行一些动态化的操作。

作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。

欢迎关注作者,欢迎咨询计算机相关问题。

随着大数据的发展,数据分析作为数据价值化的重要方式之一必然会得到大面积的普及,未来数据分析不仅仅是专业人士的工作,大部分职场人都应该具备一定的数据分析能力,所以作为文科生来说,掌握一定的数据分析技术也是有必要的。

数据分析的方法有哪些,如何自学数据分析并找到工作

目前数据分析有两种类型,一种是应用级数据分析,以应用工具为主,另一种是研发级数据分析,以统计学和机器学习的分析方式为主。相对于研发级分析来说,应用级数据分析并不复杂,即使数学基础比较薄弱的人也能够掌握。

对于文科生来说,可以按照以下的学习步骤学习数据分析:

第一:从Excel工具开始。Excel能够满足大部分职场人的数据分析要求,通常在10万条以内的数据,采用Excel进行分析是没有压力的,而且可以执行维度较高的数据分析任务。在使用Excel的过程中也会逐渐积累一些统计学的分析方法,逐渐提升数据分析的能力。

第二:学习数据库知识。随着数据量的增长,当Excel不能满足需求的时候就需要掌握一定的数据库知识了,学习数据库可以从关系型数据库开始。学习关系型数据库并不复杂,重点在于Sql语言的掌握。掌握Sql语言之后就可以执行更加灵活的数据分析任务了,而且可以结合BI工具进行专业的场景数据分析。

第三:学习编程。要想进一步提升数据分析能力就需要掌握编程语言了,目前Python语言在数据分析领域有广泛的应用,Python语言语法简单且功能强大,即使没有任何编程语言基础的人也能够学得会且用得好。

未来,大数据作为产业互联网的核心技术之一,必然会广泛的落地到广大的传统行业,而数据分析将是一个重要的岗位,所以学习数据分析技术能够明显提升自身的职场竞争力,未来的发展空间也比较广阔。

我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。

如果有互联网方面的问题,或者考研方面的问题,都可以咨询我,谢谢!

数据分析这算是一个比较大的一个框架,单从字面意思来讲就是从数据中提取有用的规律或背后的逻辑。

工作中数据分析的职能主要分为以下6个步骤:

数据收集

数据清洗

数据储存

指标计算

数据统计分析与建模

数据可视化

第一步数据收集:在前期我们数据尚未形成特定的体系的时候亦或者是我们的业务正在进行的时候,需要我们通过各种各样的途径去获取数据。数据收集的方法多种多样,其中可以用程序自动收集(数据埋点、网络爬虫、ERP或CRM系统自动生成等)、手工统计(Excel统计)、第三方网站提取(通过公开数据网站下载,API等)等诸多方法,方法的选择跟随业务形态进行。

第二步数据清洗:收集来的数据是脏数据,需要通过数据清洗,也就是取其精华去其糟粕,这样的数据才是我们能够正常使用的数据。这一步的操作主要使用的是正则表达式进行数据清洗,收集来的数据各种格式都有,需要转码成特定的格式以及编码。

第三步数据存储:由于现在的公司数据越来越大,互联网时代已经从IT转变为DT的时代,现在每个公司的业务数据都是呈现几何倍数的增长,那么在存储数据的时候肯定不可能还用以前那种用纸笔记录的时代。现在对于小数据量的公司一般也是用Excel文件进行数据存储,许多公司以及采用数据库产品进行数据存储,市面也有很多性能很好的数据库产品,例如Oracle、MySQL、SqlServer,现在对大数据还专门有对应的hive数据仓库产品。这些产品都很好用,并且部分还是开源产品。就我们公司而言,之前使用的Oracle和MySQL以及SqlServer数据库,目前因为业务线条的调整,已经将数据从单一的数据库转向hive数据仓库存储,更方便了技术、业务、分析师等角色对数据的应用提取。

第四步指标计算:在进行指标计算之前,需要数据分析师建立当前部门的KPI指标,对应着业务部门针对不同的业务场景反馈出业务好坏的数据与规则。这一步繁杂而持续,并且可能这项工作会贯穿整个数据分析生涯。什么是指标?指标就是衡量目标的方法,比如商品管理常用的库存周转率、毛利率等,运营常看的路径转换,maketing常看的ROI等等,对应的指标反映出不同的业务场景的好坏,随着业务的变换,企业阶段的变换,指标也会一直在跟随着变换。

第五步数据统计分析与建模:这个环节是整个数据分析流程中最有意思的一个环节,没有之一。相比于之前的环节,在此环节你将会面临各种各样的挑战。什么假设检验,什么线性回归、什么特征工程、什么贝叶斯等都会遇到,在这里你将会看到各种数据背后的逻辑以及数据所产生的价值。并且在数据分析的过程中可能会遇到第二步的数据清洗过程,处理缺失值、处理异常值等。

第六步数据可视化:也就是数据展现,需要将第五步统计分析及建模的结果使用图的形式体现出来,俗话说字不如表,表不如图。市面上使用的比较多的数据可视化产品主要是Tableau、PowerBI、finebi、PPT等几种。其中前三种主要是呈现交互式表格,也就是存储于线上的报表,而PPT主要是以报告的形式呈现。

现在的数据分析可按照职能简单划分为几个方向:

商业数据分析师

数据挖掘工程师

大数据开发工程师

以上几种是当前的招聘时长相对比较常见的几种岗位,各岗位之前各有不同。商业数据分析师主要是以业务为导向,将数据应用到企业的决策中,主要的工具是Python、R、Excel、SPSS、tableau、PowerBI等;数据挖掘工程师比较侧重技术方向,主要反欺诈、垃圾邮件识别等数据应用,主要的工具是Python、Java、C、C++等;大数据开发工程师主要负责搭建数据平台,利用hadoop、hive、spark、Python、Java、C、C++等工具开发适合公司数据流的数据平台。数据分析是一个目前为止比较新兴的岗位,因此大多数人都是在不断的学习改进。

以上为我的一些拙见,有什么不足的地方欢迎补充交流。

2022-06-10

2022-06-10