我是CPDA数据分析师
我是CDA数据分析员
我从事数据分析相关工作
我是个数据分析的小白
我想转行做数据分析
今天我围绕如何成为合格的数据分析师跟大家分享三个小话题:
找到在数据分析领域的定位
数据分析思维的训练
数据分析领域发展方向
一、找准数据分析师的定位
公司在运营过程中会面临大量的决策问题,比如如何安置安全库存?如何选择合适的供应商?如何实现最优的生产安排?如何提高新产品的成功率?
如何定价?如何评估促销活动效果?有决策就要有分析需求,如果是中小企业,配各个部门的分析师就可以降低成本
如果是大中型企业,可以成立数据中心,将数据分析师集中在一个独立的部门。
当然也会有人说,老师,我们外包给分析师事务所等第三方
数据分析师事务所是由分析师组建的,需求外包给第三方的企业也需要有人与事务所等第三方接洽,如果这个人对数据分析一窍不通,很难找到合适的第三方,为了提高合作的质量和效率,也要培养合适的数据分析师。
这是从企业角度看分析师的定位。
如果从个人角度看,有人说我刚入门或从事的工作数据分析技术含量不高是不是就是初级的分析师,然后逐渐地晋级呢?
我们先从国际惯例和行业标准看,比如注册会计师(CPA)、注册税务师(CTA),这类专业地从业认证体系是从不分级,也不是终身有效的,而是持证人通过定期年检来保持其资质地有效,有三年一检,有一年一检,大家分级的思维惯性是怎么来的呢,比如特许金融分析师(CFA),这是能力的一个证明,是对个人技术和知识的证明,不涉及对一个行业及第三方服务的能力;
而数据分析师是什么,是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。是专业从事投资和运营项目数据分析的高级决策人,通过掌握大量行业数据以及科学的计算工具,将经济学原理用数学模型表示,科学合理的分析投资和运营项目未来的收益及风险情况,为做出科学合理的决策提供依据。
也就是说数据分析师不太可能根据类似Excel水平从低到高来划分等级,不然你掌握Excel所有的操作功能,却无法解决一个业务问题,要怎么给你定级,可以就你的Excel水平分成低中高,但无法就你分析解决方案给你分级,再比如你是金融领域的分析师,我是教育领域的数据分析师,咱俩解决业务问题不同,我们要怎么区别等级?就是这个道理。
因此数据分析师可在本职工作中充分发挥作用,提升工作绩效、增强决策的科学性、提高工作决策的成功率。不论你是公司法人、项目总监、市场总监、会计工作人员、税务工作人员还是营销策划人员,我们都可以是数据分析师,在不同的领域和岗位让数据产生价值。如果我们到专业的机构任职,那就是数据分析师事务所,专门为企业提供数据化解决方案。
二、数据化思维的训练
我在协会课程处任职以来,一直在研究数据人才的发展和培养,接触过很多的学员,最初接触大概80-90%的人都是数据分析门外徘徊的,是想转行,想利用数据做职业突破的,但也都有一个共同点,就是不自信,不知道如何用起来.没专业背景和基础的一般的,咨询的时候都是战战兢兢的,好像他就不应该利用数据一样.有专业背景或基础的就迷惑,我只会学校学过的理论或者技术,根本就不知道怎么跟应用搭接起来。
但两三年后再跟这些朋友接触,他们在数据化道路上的差距就拉开了。这其中的原因,想必大家都是关心的,没有谁不想成为进步比较快的那一个.通过我对这些学员的观察,差距不是专业背景拉开的,而是看有没有进行数据化思维训练.有很多CPDA学员寄希望在几天的面授集训,希望几天后就从月薪7k升级到年薪50万,这让人觉得会暗藏杀机,但持续训练从7到年薪50万还是很有可能的。
举个例子,如果你是一个歌唱演员你需要接受气息和发声训练。如果你希望唱好,我指的是抱着一种认真的态度,达到竞技水平的唱好),就必须接受大量枯燥、重复、看似毫无意义的训练。舞台上唱歌都不会直接将气息发声训练展示出来,但是我们肯定听到的优美的旋律是应用了气息和发声技巧的,要提高歌唱能力,他们必须经常接受枯燥乏味的训练,可以说,这些训练内容是歌唱这个活动的一个组成部分。
当然,如果你觉得自己无法接受平常的训练,你仍然可以唱歌,只不过是和朋友一起,纯粹以娱乐为目的。数据分析跟例子中的唱歌有相似之处,你的工作可能与数据分析相关性偏弱,大多数人的情况都是这样,比如销售人员,设计师,HR,有主业务线索,不知道数据怎么跟这些业务相结合,正是这样的原因,我们更需要在这些领域将数据分析和业务职责交织在一起,来增强我们的处理实务和决策的能力,像一副X光摄像眼镜,我们可以透过现实世界错综复杂的表面现象,看清本质。
多少个世纪以来,由于人们的辛勤钻研,反复辩论,各种公式、定理模型已经得到了千锤百炼,可以帮我们在处理实务时避免犯错。数据分析师就要利用这些经过千锤百炼的公式定理模式,以更深入、更准确地理解我们这个世界,或者取得更有意义地成果。
我们需要做的就是找到一位良师或者一本好书或者一系列课程,引导我们学习数据分析中的一些规则和基本方法,然后你需要在日常生活和工作中大量的使用训练。一说这个,有朋友就皱眉了,我从书上看过机构化思维\推理演绎思维\指标化思维\维度分析思维,不错,学科分类分的越细,类似这种方法越多,我今天跟大家说的思维训练不谈这些,我给大家提供的训练方法是拉开分析水平差距的核心点,也就是业务问题转变成数据分析问题的思维训练.
首先就是从解决问题出发,也就是你的核心业务诉求,这是数据科学研究的关键问题
以销售岗为例,销售业务核心指标是什么?就是销售量达到多少,但分解一下业务,如果跟踪一个客户,结果有两种,客户在我这成单还是不成单。不管是销售量达到多少还是成单不成单,都是实际业务的核心诉求或者说是研究的关键问题。
第二步就是找能解释和影响我们核心业务诉求的因素。比如成单不成单我不知道,我需要花费多少的人力物力跟这个单我想知道,不能做没有结果的冤大头。怎么办,我只能通过能看到的关于影响成单的因素去预测,预测会不会%准确呢,基本不可能,但是,希望能够做的比拍脑袋准确,这是非常有可能的,也就是要找到优质的那些影响因素。
比如这个客户家里出现变故,精力和资金都紧张,而且去年公司产品出现了大规模的质量问题,品牌有负面影响,这时我们就要担心了,而如果市场趋势向好,广告投入增加,我们对核心业务问题的解决就会信心大增。关于优质影响因素的选择,依赖于我们的想象力和数据采集能力,当然前提是你懂你的业务背景,这样就可以产生成千上万,甚至上百万、上千万个影响因素。如果学过回归就可以把业务问题转化成数据分析问题了。
y就是客户是否成单或者销售量,x1可以是品牌影响,x2可以是广告投入增加,依此类推多个x变量。第三步就是识别判断变量之间的关系,关系是正向的还是负向,变量影响程度怎么样,。品牌正面形象会对成单有正向影响,品牌负面形象就会有负向关系,对于不同的客户,同一个变量的影响程度会有不同,也可以说是权重不同。
我们课程处和数据中心目前都是研究型部门,也是最大的成本中心,由各业务部门承担分摊成本.这又到年底核算了,有业务体找我们,说觉得你们对我们的支持不够啊,没啥支持,数据中心腰板一挺:你提需求啊,只要你提需求,都就能帮你搞定,结果业务部门老大一脸蒙圈:我提不出需求啊。这就是典型的问题,不能把业务和数据结合起来,数据分析师就是数据与业务结合的存在,我给大家建议的这种训练方法经过大量学员的成长经历证明是比较有效的,大家用起来吧。
三、数据分析领域的发展方向
首先关于发展趋势,目前数据分析算法场景搭建已成为重要的全行业覆盖的大数据应用趋势.年美国《麻省理工科技评论》全球十大突破性技术榜单就包括给所有人的人工智能(云端AI),目前有一些已经被广泛使用的AI算法,如人脸识别,语音识别,图像识别等,都是定义非常清晰的,公众也只需要一个结果最好的算法。可惜,目前绝大多数的企业依然缺乏了解如何使用云端人工智能的人才。
在国内预计在未来15年中,大部分产业在人工智能上的发展会集中在场景、算法和数据这三个要素中。
我们先说下场景.数据分析师需要具备给包括为通信、金融、教育、零售、制造等行业提供分析服务的能力,这里涉及的场景不一,面临的需求也不一样。比如,在汽车销售行业,一手汽车销售风控的模型和二手车风控模型差别很大,需要非常多专家型的经验。这涉及到人才的问题,缺少的是什么样的人呢,就是真正懂业务、懂场景的行业数据分析师。比如在金融领域,做信用卡业务风控专家去解决消费金融的风控和汽车金融风控的问题需要学习的路径和时间,不是立刻可以搞好的。
而算法是什么呢?就是计算能力、算法和挖掘能力,算法最终有两个核心因素。其一还是人才,未来企业的竞争很大一部分在于对数据分析人才的争夺。其二看计算能力。计算能力体现在几点,第一点是框架。最早期的谷歌做深度学习框架计算能力很强,现在在美国最近又出了几个新型的创业公司,号称计算能力要高于之前的20倍,确实性能已经优化了。
第二点,真正的计算能力体现在底层包括硬件。比如芯片,国内已经有团队在研究人工智能技术和人工智能算法集成到芯片中去。软件集成的过程变成硬件集成,这意味着十倍、千倍的增长,这会颠覆部分行业,是真正的黑科技。数据这个不多讲了,随着场景、算法、数据回归到价值轨道,以及数据分析师需求的更加迫切,算法场景集成的应用平台将会更加被重视,算法场景交易将成为国内市场新的利润增长点。
目前各种类型的企业对算法自建和场景搭建都是有需求的,而且需求更是多层次的,自建的高效执行是分析策略实现的根本保证。
下面我们通过一个场景化解决方案了解一下算法自建和场景搭建的过程:
某游戏公司,想通过半年用户行为数据,对用户是否会付费进行预测,并根据预测结果对可能付费用户进行精准营销。根据前面的训练方法
第一步找到相应的核心业务问题是预测客户会不会付费;
第二步就是找能解释和影响我们核心业务诉求的因素,比如我们找到了如下影响因素;留存天数,用户退出时的游戏等级,登陆手机的系统,活跃天数,每天登陆频次;
第三步判断变量之间的关:
当然结果是由算法模型出来的,我们看下搭建的:
算法这块,计算力是由datahoop平台提供的,其中集成了常用的算法可以通过拖拉拽搭建场景,如果满足个性需求,可以主动的参与算法自建将算法脚本试运行成功后按平台提供的规则进行标准化
当然最终分析师对结果进行通过参数设置,得到以下结果,包括混淆矩阵\模型参数\模型结果\模型指标\预测结果等,在这由于时间关系不再分别解读
这是通过一个例子要大家