本次被访者柳辉,TrueMetrics(触脉咨询)联合创始人,西安电子科技大学硕士,谷歌官方认证数据分析师,DCM个人认证,美国PMP项目管理认证。管理TrueMetrics的网站分析项目及数据可视化报告。
本文通过以下七部分拆解数据分析:
一、什么场景和行业需要数据分析
二、数据分析会骗人吗?
三、怎样排除虚假流量?
四、PC端数据分析指标&方法论
五、电商、金融行业数据分析
六、数据分析的趋势
七、怎么培养数据分析的能力?
01
“无法度量,就无法管理”
——管理大师彼得·德鲁克
这说明了数据对于管理的重要性。在日常的运营和决策中,数据扮演的是一个辅助角色。举个比较贴切的例子,如果汽车相当于生意,那用仪表盘来比喻数据是最贴切的。脱离仪表盘,车照样可以开,但想要把车驾驶得精益求精,这时就要依靠仪表盘了。所以数据是常规运营和决策的良好辅助,对于常规价值的增值能力,是数据最核心的价值。
真正系统性的网站分析大概只发展了十年左右,相比统计学、经济学等其他成熟学科,网站分析还是比较年轻的。
我从传统零售业慢慢接触到了互联网领域,算是比较早接触数据分析的。之前在传统零售行业,接触到的基本上都是市场数据和销售数据,采用购物车追踪器、会员系统、店面观察员、市场调查员等方式获取数据,数据分析的成本不低,并且要获取细致的用户行为数据非常难。当我逐步接触到互联网在线数据分析之后,通过用户行为定位、用户行为追踪的技术,能非常轻松地解决先前传统行业的那些难题。
所以到底什么样的场景需要数据分析呢?我认为只要能产生可靠的数据,运营者有意愿通过数据为生意增值的场景都是需要数据分析的。航空业、金融业、电信业是数据分析发挥价值较高的三个行业。这些行业的用户有实名制,用户的每次交易也都是实名的,用户信息相对更准确,对用户的分析就会更准确。
先进种情况,数据是客观存在的,它不会主动骗人,真正骗人的是数据使用者。现在谈论较多是虚假流量的话题,用机器模拟流量数据混入正常数据里,污染真实数据。即使你有非常高明的手段也很难排除所有的机器流量。这种情况下去做数据分析,把机器数据当做人的行为去揣测,用分析机器行为的结论去服务你的用户,这种错误的分析对真正的决策会产生很大的影响。
第二种情况,选用的数据分析方法不恰当或对某种方法的使用领域了解不够,导致数据分析对决策产生干扰。以数据抽样为例,如果你的数据抽样样本属性不恰当,会造成整体数据的偏差。一个电商网站如果选取了80%的女性数据和20%的男性的数据开展分析,那么女性的数据特征就会对抽样的整体造成数据偏差。
第三种情况,在于数据能力所不能及的问题。数据不是万能的,一些情感类、风格类的数据是不能完全数据化的。最简单的例子,汽车广告应该投到时尚类、运动类、旅行类等比较贴切的场合,如果你把一个中高端汽车广告投放到一个有笑话、恶搞的环境中会使广告的效果大打折扣。但目前来讲,数据还不能完全识别这样的投放环境。另外,数据只能通过一些表象特征去分析,捕捉不到人情感的细微变化,人和人面对面的销售方式反而能捕捉到一些变化。
虚假流量的作假手法和排除手法每年都在升级。从字面上讲,虚假流量可以分成虚流量和假流量,二者本质上是有些区别的。
非人为的流量我们会把它归类到虚流量里面,比如说蜘蛛的爬虫,它不是恶意的,而是自然而然产生的,它只是让网站流量虚高,一些测试流量和垃圾流量也都属于虚流量。
假流量是因为有利益驱使人为造假,主要涉及以下手段。
一、刷量。这种方法比较简单粗暴,比较容易被识破。可以通过时间段排查,因为机器没有正常的作息,如果简单设置为24小时平均刷,每周7天平均刷,这就违背了人的正常作息时间。还有一些虚假流量是通过机房多设备刷量,机房的特点是IP统一,配置、屏幕大小、操作系统和浏览器都差不多,也是比较容易识破的。
二、模拟鼠标坐标。有些刷量考虑的非常周全,用不同的IP地址、产生不同的访问、延迟情况,甚至能够模拟实时的鼠标坐标。但难免有破绽,人从一个点到另一个点的移动很难做到是一个标准的直线,而模仿的轨迹都是点到点的,全部都是直线,它不会拐弯。所以也能识别出来。
三、技术性的假流量。它可以远程控制机器,然后植入木马,诱骗你去点击一些乱七八糟的网站,实现刷量的目的。这种很难识别,因为产生这个动作的是真实的人,甚至还会产生真实的交易。
四、刷量群。他们类似淘宝刷单,加入刷单群之后,群主一声令下,点击什么网站,跟客服发生三句话以上的咨询,这些流量就都传送过去了,这都是人的行为,而且这些群里的人天南海北,产生的行为也都特别真实,所以这样的假流量很难甄别。
五、数据监测死角。还有些渠道很难监测,比如微信朋友圈、今日头条的信息流,它们属于监测的死角,没有任何依据去判断真假。虚假流量还有一个产业链,这个就比较复杂了,找到其中的破绽需要通过很多角度来做数据验证,但也是有抓的办法,我们也在研究一些抓虚假流量的工具,做多角度抓取此类虚假流量的尝试。
抓假流量固然重要,但比这更重要的是防范假流量。
先进个建议,坚持用可靠的数据监测工具,并且和广告商、媒体争取用抓取到的数据进行广告费结算。
我有一笔广告费,要在你这里做广告,但是你要同意我使用第三方的工具进行监测,监测到什么数量,就给你多少广告费。这有两层目的,一是节省广告费,二是威慑作用,比如让媒体知道你用了知名的反作弊工具比如谷歌的DoubleClick,在造假时就会忌惮三分。一般媒体会同意你使用第三方的监测工具,但它会要求做测试,你相信这个工具,但媒体不相信。这时要防范一些比较老道的媒体会向你要“分时段数据”,他们要这些数据只是为了看一下在哪一个时段的作弊手段没有被工具检测到,等到正式投放的时候,应该使用哪一种作弊手段。
第二个建议,在企业内部使用辅助KPI做数据真实的验证。
明面上的考核是要公布给媒体和代理商的,他们知道选取什么样的渠道才能完成KPI,达到什么样的量级才能结算广告费。辅助KPI比如用户行为特征、行为习惯,这些是用户的行为特征数据,可以不向媒体公布。如果是假流量,是难以符合常规的行为习惯的,这个可以作为假流量的依据。
第三个建议,对初次合作的媒体一定要做重点检测。
初次合作的媒体通常认为会比较“老实”,但真实情况却不尽然,媒体非常清楚初次合作的数据可能会作为后续合作的基准线,同时也要向广告主表明对于KPI的完成情况,所以反而会在合作初期冒险掺入一些假流量,即使被怀疑也可以用初次合作测试数据不稳定的理由搪塞过去,所以对于初次合作的媒体,更需要多加小心,通过各维度行为数据来验证流量的真实性。
数据分析通用指标有三类,每类我可以再推荐三个最常用的指标。
先进类指标与流量数量相关。用户数、访问次数、交互数对流量的影响最大,它们是存在层级关系的,同一个人会贡献多次来访,同一个来访也会贡献多次交互点击。
第二类指标与流量质量相关。一是参与深度,也就是平均访问页数,即用户每次进入网站访问了多少不同的内容。二是跳出率,用户点击一个广告进入网站后什么都没有做的情况就叫做跳出,跳出率考量的是用户是否对你感兴趣,用跳出率做流量评估也比较直接。三是新用户占比,就是说你网站新老用户各占多少。这是引流质量的问题,但具体如何采取行动,取决于你的引流战略是希望更多的新用户加入还是维系老用户。
第三类指标与价值相关。一是转化率,即用户进入网站后产生交易的几率有多大。二是客单价,它衡量流量价值、衡量用户对你有多大的信任。三是每次来访价值,每一个访客的每一次进站对你来说意味着多少转化,这个可以用历史数据进行推算;反过来,你可以根据这个数据规划你在营销上应该投入多高成本。
除了上面三类通用指标,还有虚荣指标和行动指标。前者在分析过程中很有用,但它不够去验证生意或驱动运营行动,后者没有固定的套路。如果本着指标精炼的原则,考核中肯定要看行动指标。
举一个最简单的例子:比如一个标准的电商网站,网页浏览量——PV是一个通用的衡量网页被用户浏览的量级的指标,早期的网站统计工具也都会用这个指标来衡量网站的流量,但如果只看这个指标,对于后续需要采取什么行动的指导意义其实并不大,因为这个指标可能是很多人每人只看一页,或者是很少人,每人看了多个网页造成的,所以如果将它升级成为能够驱动行动的指标,不妨可以使用每次访问页数,这个代表的含义就是用户每次来访参与的平均深度了,它的升高和降低直接能够对应到网站的运营者需要如何来优化用户体验和内容,如果再将它升级,因为背景是电商网站,所以还可以升级成为商品详情页浏览量占总浏览量比重,这个升级对于电商网站的运营就更能明确方向了,鼓励用户每次来访查看更多的商品详情页,对于网站销售的情况是有非常明显的推动作用的,这其实在大量案例中被验证,这是一个非常良好的驱动行动的指标。
与移动端相比,PC端具备更完善的研究环境。移动端收集的数据量级、维度、角度都会少一些。作为研究者或理论的关注者,我还是建议把PC端当做一个研究的环境看待。那么PC端数据分析到底怎么做?
一、制定规划
一制定商业目标。对很多企业来说,真正进入数据分析前,商业目标并不是十分明确。在你的商业目标不清晰的情况下,数据收集是没有大方向的,甚至你的企业运营因为商业目标不准确而形成比较大的风险。所以建议根据企业规模、所属行业、发展阶段,提炼出1-3个清晰的商业目标。
二规划KPI。商业目标本身不是一个数据,它不是量化的,而是属于比较概括性的东西。所以它和数据之间需要有“桥梁”的连接,KPI就是这个桥梁。KPI虽然也是数据,但它是非常精炼的,每个部门甚至每个人的KPI可能都不太一样,所以KPI也是需要做一些完整的规划。
三规划数据指标,即应该采集什么样的数据。企业需要的数据不是你能采集到什么决定的,而是由你需要什么决定的。商业目标对应KPI,来检测你的数据指标,这是我们常用的方法论,能够帮助企业更清楚地把数据体系搭建起来。
按照这个顺序规划了清晰的数据需求,再开展数据的采集和分析工作,可以避免数据分析方向偏差。
二、数据标签化&采集
首先,数据标签化。数据最常见的问题是数据污染、数据不清晰甚至混乱。造成这些问题的罪魁祸首,可能是数据收集前就没有做到非常清晰的标签化,但用户是需要标签的。只有把前期准备工作做到位,后期才不会陷入数据混合无法拆解,无法做数据细分和聚焦分析的境地。
第二,选采集工具。不同工具的需求不同,我认为比较常见考量工具有五个角度。
一是可用性。你的工具是否能满足当前提出的数据需求,或者说能不能满足99%以上的需求。重点在于它是否能支持你的数据采集、实时查看数据、订单数据的完整收集。
二是易用性。一个非常好的工具,但它解读起来很困难,工作流程非常繁琐,这种情况会降低我们的效率。如果工具不易用就会造成用户对数据的抵触甚至恐惧情绪。
三是智能性。现在很多工具都加入了人工智能的因素,比如谷歌分析GA中加入了机器算法告诉你哪些用户的质量高哪些用户的质量低。智能性是为网站分析锦上添花的,并不是非常基础的东西,它只是决定了人使用电脑工具效率的高低,并不会关系到工具能不能用。
四是扩展性。先进项是数据整合,第二项是数据应用的方向。谷歌分析有个其他工具望尘莫及的优势,它很好整合了谷歌所有的营销工具,并且能把数据轻松地推到谷歌营销平台上,对这些用户进行精准的定向营销。
五是经济性。包括收费方式和收费水平,需要综合收益去考虑投入是否合理,是否在你的接受范围之内。
现在企业在选择分析工具时通常有个误区,会恰好把这个优先级排序反过来,把经济性作为首要考量因素。一个工具收费一百万,企业首先一个反应就会觉得很贵不想用,但既然它在市场上存在即有它的合理性,应该考虑的是企业该如何驾驭这个工具获取更高的数据价值。
三、数据清洗
在做分析之前,一定要对数据进行一次清洗,我非常建议把这两块数据最大程度上剥离出来:无效和无用的数据。无效的数据就是假的数据,无用的数据是真实的数据,但是对分析没有作用,最典型的是测试数据。
数据清洗不能做到百分之百可信,最大也是最常见的问题是数据偏差的问题,数据偏差的修正也是数据清洗的一个步骤。很多客户会非常在意数据偏差,因为他们有后台数据,尤其是销售数据和订单数据,当他们在机器里看到的数据和自己的后台数据有10%到20%的偏差,有些用户就会走极端,觉得里面差距那么大,就不相信不参考这个数据了。
所以作为网站分析师,需要有能力判定数据偏差对分析结论到底会不会造成重大影响,这是数据分析师的基本素质。在分析过程中,我比较建议侧重过程的分析,而不要特别在意结果的对照,因为如果数据偏差是稳定恒定的,那么数据分析的结论就是合理的,跟真实情况不会有太大的差异。
四、真正进入数据分析
准备工作做完之后,才开始真正的数据分析工作。在网站分析方面,我们分析的数据通常会分为四个模块。
先进个模块叫做用户属性分析。分析你的用户是谁、在什么地方、使用什么样的设备、平时有什么样的兴趣等等,相当于做人物画像。
第二个模块叫做流量分析。包括流量质量的评估,流量的效果,流量之间的配合效率。
第三个模块叫做内容分析。针对你网站呈现的内容顺序做一系列分析,来发现用户的行为习惯。
第四个模块叫产品分析。对于需要体现价值的产品、服务、内容进行分析。
可能有人按照网站分析工具的惯例会认为应该是做目标分析,但我认为最后一个模块不应该作为一个单独的模块,而应该融入前面的三个模块里面,转化分析实际上对于前边的模块体现的是验证的作用。
五、改善行动
我认为在做改善之前应该再做一步测试,很多分析师会忽略这个环节。比如,得到了一个数据分析结论却没有人采纳。对于一些重大的决策,决策者会用一些比较高的代价去做决策,这个决策也会带来比较大的风险。缩小结论到行动之间的距离,降低决策风险和抵触心理,不妨采用一些测试的方法,比如A/B测试,到底哪个营销策略更有效测试一下就会得出结果,这个测试的代价确实非常小,而且出来的结果立竿见影。真正的数据改善行动唯一要多做的一件事情是,利用数据做追踪,来验证改善的最后成果。
这五步会形成一个完整的循环,随着企业的运营和深入,会有一些新的需求产生,也会有一些新的问题的排查,会不断进入这个循环中。
电商
电商的数据分析方法有三种,在不同的场景下可能会用到不同的分析类型。
先进种是验证型分析。基于一些数据基准,在新数据里拿出同口径的数据做比对,进而发现问题或验证结论。它本身对发现深入的问题和解决问题并没有很大帮助,但对于分析师的数据粗犷解读和了解数据特性是非常重要的。
第二种是诊断型分析。诊断型分析比较常见的方法是对数据的分解剖析,相当于对一个结果数据层层拆解,一直拆解到最小单位的数据为止。举个简单的例子,如果订单提交的量变少了,你只看订单页面可能得不出来结论,它上一步还有订单填写,往上还有提交购物车订单,还有把商品加入购物车。其实每一步过程数据都会造成最后结果数据的变化。所以整个数据分析就是拆解,最后定位到问题到底出现在哪一个环节。
第三种是预测性分析。它的原理也比较简单,就是基于你的历史数据并结合你的商业目标,找到数据里存在的特征和规律,建立数学模型。当未来产生一部分数据时,你可以通过数学模型演算出其他数据应该是什么。如果你做用户价值的预测,可以根据历史数据得知产生这种特征的人有多大几率在未来一年之内能够给你带来多少销售额。如果你定位到一个高价值用户,那么你接下来要做的就是对这个的高价值用户进行各种方式反复的营销,充分挖掘他的价值。
金融
我认为这个行业比较特殊,它和传统的生意不太一样。
先进个特征是占用资源。资金放到平台并不是马上就能得到回报,而是有一定的回报周期,用户的决策难度比较高,信任就变得很重要。你要关注用户到底跟你交互了多少次,或者什么样的元素打动他跟你发生先进笔交易。
第二个特性是提供价值的方式跟传统的行业不一样。传统行业提供价值的方式是货币交换,互联网金融是钱换钱,钱生钱,通过时间的累积,把固定的钱变成预期的更多的钱。互联网金融赚了还是赔了、有没有回报都是非常清楚的,所以他的客户对价值比较敏感。
这里涉及三个指标:用户生命周期价值、用户响应率、用户粘性。
用户生命周期价值相当于你对一个用户有一个总的价值判断,他会对你产生多少种价值,你挖掘到了什么程度,还要怎样进一步去挖掘。
用户响应率是个比较特殊的指标。当你有一些新产品或者新的促销政策时,你的所有用户里有多少人会响应你的产品,比如产生购买、关注、收藏、咨询。响应率非常重要,它直接验证了产品的价值,验证你的产品的吸引力和认可度。
粘性可以使用用户的复购率来反映。当用户完成先进次商品交易之后,产品到期时是不是能够有效产生第二个商品的购买,或者在先进个商品上继续续约,这对于分析用户对于产品的忠诚度很重要。
先进个趋势,大数据的对面不是小数据,而是深数据。大数据以用户量级取胜,同样的营销和经营打法只适用于固定的一类属性的人,转化率不变,分母变大,扩展更多的人群基数,是大数据打法的制胜关键。深数据是说限定一个人群,然后把精力放在收集这群人的购物各个阶段的数据上,用各种各样的营销和经营策略在用户各个购物阶段上进行关怀,提升的是某一个用户的转化率,但分母不变,制胜关键与大数据打法不同,对一个人购物阶段的数据越完整、判断越精准越好。用户基数再大总会有天花板,所以后续的竞争会有相当一部分企业尤其是大企业转向深数据的应用方向。
第二个趋势,大数据采集的壁垒可能会进一步降低。现在各家采集的数据都是自己使用,不愿意公开,或者是采集标准不同,不相信别人采集数据的准确性。这样会造成同一个数据源就会被重复采集,既浪费了硬件资源,也浪费了人力资源。其实对于同一个数据来说,只要采集的方法相同,只需要采集一次,共享就可以了。后面随着数据分析领域的标准化和统一化,数据资源会产生更多交换和交易,在数据采集这个环节会占用更少的精力,从而做更多的数据分析的事情,让数据能产生更高的价值。
第三个趋势,我认为数据分析的岗位可能慢慢就会消失了。数据分析岗位的消失在近几年不会出现,但未来十年内不好说。我认为数据分析的技能对所有互联网从业者来说,就像对于办公软件以及语言的掌握一样,会成为人人必备的技能。
第四个趋势,机器学习的发展将最大限度实现程序化数据应用。
目前数据应用的很多环节都在应用机器学习,比如程序化购买、自动化广告素材优化、智能商品推荐等等,但相互之间是割裂的,还需要人去做各个环节的串联。机器学习会慢慢替代人来串联一个一个的程序化模块,程序化的整体数据应用方案将会覆盖互联网领域。
这四个趋势我认为是我们很快就能够看得到的。
先进个建议,方向比努力还要重要。
数据分析并不是一个特别细分的领域,它里面包含了很多的方向。作为一个数据分析的入门者,当你了解了数据分析行业概况之后,你要做的一件事情就是了解这个行业有哪些方向,选择一个方向深挖。数据分析有三个常见的发展方向。一是数据挖掘;二是数据建模和数据应用;三是商业数据分析。每个方向都不容易到达巅峰,所以尽快确定主攻方向,尽快扎进去有助于迅速成长为一个领域的专家,和其它专家共同协作攻克数据分析领域更前沿的课题。
第二个建议,懂生意比懂数据重要。
一开始我们就谈到数据的价值是要最终服务于某个具体业务的,所以要想让数据发挥更高价值,对于业务知识的掌握是需要重视的,否则数据分析结果和业务存在距离或不能落地,不能实现商业增值,数据就会因此贬值了。
第三个建议,在场景里做分析比理论分析更重要。
先进方面,优化流量。流量并不是跟媒体或用户斗智斗勇,其本质是面向竞争对手的战争,要争取用同样的价钱买到更多的流量或者同样的流量花的钱更少。有时太关注用户属性或媒体价格,反而忽略了和竞争对手的博弈关系,这种博弈需要人的参与,单纯依靠机器博弈会忽视场景做出错误决策。
第二方面,用户体验输出。你面向的是用户,所以更重要的是你的内容如何跟用户产生共鸣。并不是说你设计的多漂亮、运行的多流畅,而是涉及到用户情感和用户感受层面,这也是量化指标难以驾驭的,需要加入人脑对于场景的理解才能做好。
第四个建议,注重人机协作。
对刚入门的数据分析师,我非常建议把人机协作这件事情提上日程,作为重点学习的方面,善于利用机器的力量代替人的力量,把人解放出来做人更擅长做的事情,人机配合最大化。机器擅长数据清洗、数据建模、数据预警、数据可视化等,所以提升数据分析能力一定是面向未来的,善于让机器去做它更擅长的事情,人去弥补机器的不足,更高效地完成分析工作,节省下来的时间就用来提升人独有的能力。
9月21日(本周四)活动预热
本期巨推传媒(CALL:400-606-5558)网邀请到了《着陆页》作者谢松杰老师,教大家简单易学、快速提升网络广告着陆页转化率的技巧。
报名方式:
先进步,扫描海报二维码,加Leo微信;
第二步:分享海报至朋友圈并截图给Leo,获得报名资格;
第三步:Leo拉您进入直播群,报名成功,等待课程开始。
重磅嘉宾:谢松杰老师拥有15年网络营销及广告经验,5年网络营销咨询培训服务经验。100+家企业内训、100+家咨询服务、100+场公开讲座。清华大学总裁班讲师、百度营销大学授证讲师,在行行家。《网站说服力》、《着陆页》作者,《网络营销业绩倍增》主讲。
课程时间:9月21日 20:00-21:00 (本周四)
分享主题:简单快速提升网络广告着陆页转化率-心动点理论
你对数据分析跃跃欲试,但却苦于不知道如何做,以及没有相应的营销人员支持?欢迎联系我们,我们为您提供专业的数据分析营销服务。
联系方式1:在后台留言:姓名+电话+数据分析需求;
联系方式2:通过巨推传媒(CALL:400-606-5558)网发布需求。
我们会马上与您联系。