天空财经网

作业六年我总结了一份数据产品建造攻略

2019-12-05 11:50:05  阅读:6454

编者按:本文来自微信公众号“人人都是产品经理”(ID:woshipm),作者David|起点学院《数据产品经理实战训练营》导师,36氪经授权发布。

“产品千万种,数据第一条,建设不规范,公司两行泪”。

作为一名在美团、摩拜等互联网公司工作多年的数据产品经理,深知数据的重要性,也一直在思考数据产品如何赋能业务,如何去建设一款好的数据产品,以及如何让数据产品发挥更大的价值。

本文分别从数据产品的价值、愿景、设计思路、建设方法及案例等方面,结合这些来的工作经验和心得,为你全方位介绍数据产品,帮你梳理数据产品建设方案,相信会对你起到一定的帮助。

一、数据产品的价值与定位是什么?

我们为什么需要数据产品?数据产品可以为公司带来什么?

我想,这是每个数据产品经理都会思考的问题。

在大数据时代,数据的价值越来重要,更多的企业希望可以通过数据驱动业务发展。

在这个大背景下,数据产品的作用也越来越大,它会让每个想基于数据做决策的人能够更高效的获取自己想要的数据,并且让决策更正确和科学,促进业务不断发展,这也是数据产品的价值与定位。

二、数据产品应该达到怎样的要求?

一款数据产品要达到什么水平才算是合格的?数据产品要实现的产品愿景又是怎样的?

我认为,要实现一款好的数据产品,应该满足如下几点要求:

  • 数据产品提供的数据必须是准确的:数据要质量高,数据要准确,指标口径要一致,即使数据出现故障,也能够尽快的定位到问题,高效解决。

  • 数据产品提供的服务必须是安全的:数据是公司的核心资产,因此数据产品要建立一个完整的安全体系,能够控制数据权限,做到没有权限的人不能访问,即便数据出现泄漏,也可以通过系统快速追查,及时补救,把损失降到最小。

  • 数据产品覆盖的业务数据必须是全面的:数据产品应该覆盖到公司各个数据生态环节,尽量整合公司所有相关业务数据,充分发挥大数据应有的价值。

  • 数据产品要让数据获取更加高效:这是数据产品的核心价值,工具类的产品一般都是为了提高效率而存在的,数据产品要提高公司人员的取数效率,并把分析师从帮助业务人员出数、取数的重复工作中释放出来。

  • 数据产品要为业务提供更智能的洞察:数据产品不应该只提供数据及报表的展示,还应该更智能的为业务提供指导,例如可以把人工智能、机器学习等领域的模型整合进来,形成业务大脑,让业务人员更聪明快速的工作。

三、数据产品建设方法论

明确了数据产品的价值和愿景,如何去设计一款数据产品呢?

通过多年的数据产品工作经验总结,并结合5W2H分析法,在做一款数据产品前,我总结了下面四个步骤来回答如何做的问题:

第一步

思考数据产品要解决什么问题(Why),为用户或者公司带来什么价值(How Much)?产品的开发周期要多久(When)?

一款数据产品的核心是要解决某种问题的,那么它到底解决了什么问题,是否给公司或者用户带来了足够的价值。

第二步

要想清楚产品的目标用户是谁(Who),用户在什么场景下使用这款产品(Where),要站在用户的角度和使用场景下来设计数据产品。

第三步

要解决的问题分析思路是什么(How)?由于是一款数据产品,那么必然是要用数据说话,针对解决的问题,我们应该以什么样的思路来分析,需要整理出一套全面的分析框架,并且制定产品的实现路径。

第四步

对于问题需要用到哪些指标来核量(What),可以把指标组合为哪些模块?应该以何种方式展现?这一步主要思考产品具体的展现内容和形式。

四、数据产品的分类与建设方法

讲完了数据产品的价值、愿景和设计思路,接下来让看一下数据产品的具体建设方法。

在企业中,对于数据产品,一般分为:数据管理、数据工具、数据应用三个方向。

  • 通过数据管理,可以解决数据质量产品的问题;

  • 通过数据工具产品,可以提升获取数据的效率;

  • 通过数据应用产品,可以通过数据赋能企业或者用户,充分发挥数据驱动的价值。

下面分别介绍针对这三个方向做具体介绍:

之所以强调数据质量的重要性,因为它是数据产品的基础,它会影响到数据仓库、商业智能、数据分析平台、数据应用等各个方面。

同时,影响数据质量的因素又有很多,包括数据埋点质量、数据传输过程中出现的问题,数据口径是否一致等等。因此,为了保证数据质量,有资源和精力的公司会搭建自己的数据管理系统。

图1为数据管理中心产品架构,主要包含指标体系管理、全局数据管理、元数据管理等。另外,在数据安全性的前提下,还可以通过全局数据接口对外输出高质量的数据。

图1 数据管理中心产品架构

以数据管理系统为例,它侧重于从时效性和数据一致性这两大质量方向保证数据的可读性。

1)数据仓库的数据时效性检查

明确每天的每一个层级、每一个数据表的最早和最晚生成时间,发现影响当天数据生成延误的数据表,并可以通过数据管理系统回答以下问题:

  • 当天 MySQL 表和 Hive 表中的核心指标是何时生成的?

  • 有哪些表的产出时间比预期时间延迟了?

  • 任务延迟的原因是由哪几张表造成的?

  • 瓶颈在哪里?

  • 优化哪几层?

  • 哪几张表可以提高核心指标等的生成时间?

2)数据仓库的数据一致性检查

通过数据一致性检查,在数据质量视图的展现下,我们可以快速了解存在依赖关系的数据表的分维度数据变化情况。

为了对数据一致性进行检查,大数据管理系统项目需要做的事情主要分为以下几步:

第一步,建立数据依赖引擎,实现依赖图谱。

依赖图谱用于构建数据仓库表之间的分层级依赖关系,然后存入MySQL表并能支持可视化展现,如图2所示。

第二步,计算数据准备情况。

各个表、各个分区的数据准备就绪时间按天、小时级进行汇总。根据Hive仓库的meta信息可以获取Hive表各个分区的创建时间,根据创建时间确定数据的实效性,用来分析展现每天、每小时的状态和瓶颈。如果需要对MySQL进行验证,则通过SQL语句查询的方式获取对应时间在MySQL中是否存在。

第三步,建立数据计算引擎。

根据定义的小时级指标、天级别指标规则,结合数据表各个分区的准备就绪时间,调用Spark SQL计算核心指标。

第四步,数据比较引擎。

根据表和表之间核心指标的关系、表和表之间的规则进行比较验证。例如,A = B,A + B = C,B/A < 0.95等逻辑判断。

图2 数据管理系统依赖图谱

2. 关于数据工具产品

数据工具产品主要在数据的角度通过工具产品来为公司赋能,为业务提供数据工具平台,提升获取数据的效率和决策速度,通过数据驱动公司精细化运营,主要包含数据分析平台、用户行为分析平台、用户画像工具等工具产品。

让我们先看一下数据分析平台的建设。

在这个竞争白热化的大数据时代,每个公司对数据的重视程度都提高到了前所未有的程度。无论是考虑数据的安全性,还是数据的使用效率,拥有为企业自己量身定制的数据分析平台,是实现精细化运营、数据驱动业务增长的利器。

因此,掌握大数据分析平台的思路和方法,是数据产品经理必备的一项能力。

如图3所示,为数据分析平台的产品架构图,数据分析平台一般包括可视化分析模块、数据查询模块、权限及资源管理模块等。其中,数据分析模块还包括可视化模块、自助式分析模块、分析工具、智能分析等模块。

图3 数据分析平台产品架构图

提起数据分析平台,很多人还停留在后端接口查询数据库数据、前端页面展现数据这种传统的定制化报表分析平台上。确实,公司在业务规模不大和人力不足的情况下,可以实现这种原始的报表分析平台,更准确地说应该是指标展现页面。

可是,这种方式太定制化了,没有任何的可拓展性,如果增加一个指标,前端和后端代码修改的成本都比较高。毫不夸张地说,前者就像还停留在冷兵器时代的军队,只能招兵买马、堆积人力,辛苦和艰难程度可想而知。

然而,随着业务的增长,报表的需求越来越多,天天深受写业务报表之苦的程序员和数据产品经理,决定研制一个更先进的工具,来摆脱这种拼体力的工作。

为了提高数据分析平台的可扩展性,终于找到了QueryAdapter的方式解决问题。具体的方式就是,通过前端配置 JSON数据,在API层下添加QueryAdapter层把API的接口翻译成相应的SQL,然后通过SQL查询具体的数据库,进一步提高前端的扩展性和报表的灵活性。

上面的这一过程可以用如图4所示的架构实现,就这样,“冷兵器”时代的大数据团队终于有了自己的“大炮”,他们只需更换“子弹”就可以快速解决不同的业务问题。

于是,数据分析平台迭代到了V1版本——可拓展的报表分析平台。

图4 可拓展的报表平台架构

人类科技的进步从来都不会止步不前,拥有了“大炮”和“步枪”,能不能再造出“飞机”与“坦克”,进一步提高“作战”效率?

虽然 V1版本解放了研发的生产力,但是随着业务人员的需求的多样性不断增加,数据分析师和产品经理的业务需求应接不暇,而且还有很大的沟通成本。

面对上面的痛点,就需要为业务人员实现一个他们自己能够快速、方便搭建报表的平台。

于是,就需要为业务人员提供创建数据源、创建单图以及创建看板功能,让他们自己去创建报表自助分析,也就是所谓的自助分析三步曲,如图5所示。实现了这些功能,也就完成了数据分析平台V2版本——自助式分析平台。

图5 自助分析三步曲

一个完善的大数据分析平台,不仅仅是单纯展现数据的,更不是一些业务常用报表的罗列,还要能够为数据分析师、业务人员提供更多对数据的洞察,让数据更加智能化。

例如:可以支持维度下钻数据、单图之间数据联动、对数据异常点进行标注、指标异常检测等功能,可以让使用人员方便、快捷地分析更精细的业务场景,实现从更多维度去了解业务,让数据发挥更立体的价值。实现一个智能的数据分析平台,是大数据分析平台V3版本的迭代目标。

大数据分析平台要更方便地服务于不同的业务场景进行数据分析,整理数据报告是数据分析师必不可少的工作。无论是周报、月报,还是新版本表现的分析报告,都需要在围绕报告目标的基础上,对数据整理、分析并提炼要点,最后形成一份有指导意义、易读且美观的数据报告。

而这些报告,就是每个业务场景都会沉淀下来的一套固定的分析思路和分析架构,这套固定的分析架构可以放在平台上实现,例如可以实现业务大脑、渠道分析、用户留存分析、用户活跃分析及日常的周月报等。

通过更贴近业务场景的数据分析平台,我们可以方便、智能地查看分析数据,提高效率,通过数据驱动业务高效发展,完成了这个阶段,便实现了大数据分析平台V4版本——业务场景分析平台。

总结一下,如果一个公司要自己研发数据分析平台,一般会经过可拓展的报表分析平台,自助式分析平台,智能化分析平台,业务场景分析平台等四个大版本的迭代,演进路线可以用下图6表示。

图6 数据分析平台演进路线

3. 关于数据应用型产品

数据应用向产品是更贴合业务的一些数据产品和数据变现类项目,会基于业务产生的数据做整合或者加工,输出可以为业务提供指导、对用户产生价值或者对其他公司、商家产生决策支持的数据产品。

对于应用型数据产品,可以是2B的,也可以是2C的,还可以是面向公司各类业务同学的。下面分别以2B数据产品、2C数据产品为例,来看一下数据应用型产品在各领域的情况。

1)2C数据产品

2C的数据产品主要是面向普通用户提供的数据服务,是直接服务于个人的,它主要为用户提供描述性分析、预测性分析或者指导性分析应用,为用户的决策提供更多的数据支持,用来解决用户的某个“痛点”。

例如:小明想要约女生周末去看电影,可是不知道周末有什么电影上映,也不知道哪个电影好看。这时候,他也可以咨询朋友或者同事,根据他们的建议和观看经历判断明天看什么电影,这相当于由别人提供了咨询服务。

当然,他还可以打开猫眼电影,通过如图7所示的猫眼实时票房功能,查看票房、拍片、上座等数据,发现今天《流浪地球》的实时票房最高。然后,综合产品提供的用户评价等数据情况,决定是否去看这部电影。

图7 猫眼电影实时票房

可见,猫眼电影的实时票房变就是一款2C的数据产品,它把基础数据、数据模型以及分析决策思路尽可能直观的形成一个产品形态,更直观智能的形式展现,充分的发挥数据的价值,辅助用户更快地做出更合理的决策。

2)2B数据产品

2B的数据产品主要为企业级或者商家提供数据服务,为客户决策提供数据洞察和策略支持。它主要是公司利用自己的数据资产,形成针对某个行业或者某个行业客户制定解决方案,形成数据服务,以辅助客户进行决策,拓展业务。

以某汽车资讯网站实现的面向汽车商家的数据产品为例:

我们来看一个在欧洲杯期间,Jeep自由光的销售商是如何利用数据产品深挖用户痛点,制定请假攻略的应用案例来营销的。

首先,通过该数据产品提供的用户画像功能,来看一下关注Jeep自由光的用户。

在欧洲杯期间的关注焦点,如图8所示,发现用户除了关注球队、球星、赛事、进程等之外,还面临请假、熬夜看球、上班等现实问题。

图8 Jeep自由光用户关注词云

再结合产品的兴趣图谱功能,看一下Jeep自由光这款车型用户在咨询内容中,感兴趣内容类别的兴趣图谱,如图9所示。发现用户对足球、家庭等兴趣显著。

图9 Jeep自由光用户兴趣图谱

另外,通过产品提供的数据了解到Jeep自由光用户中有65%为公司职员,72.9%为已婚人士,并深度剖析了欧洲杯赛事期间的用户行为,发现“请假看球”成为用户最关注的问题之一。

欧洲杯决赛在周一凌晨三点,上班族熬夜看球会影响周一的正常工作,已婚族通宵看球容易影响妻子和孩子的正常休息。对于真球迷来说,他们是请假看球还是忍痛割爱成为世纪难题。

那么,Jeep自由光的销售商是不是可以针对用户的痛点,对这个世纪难题做营销,引起共鸣,提升汽车销量?

五、小结

其实,大数据产品在各行各业中的应用还不止于此:

随着2B时代的到来,传统行业会更多地与互联网结合,大数据也会在更多的维度上驱动产业升级;数据产品经理将会成为各家公司的标配,通过数据产品驱动公司业务发展是互联网下半场很多公司的共识。

但是,数据产品经理仍然出于混沌摸索的状态——在现实工作中,也只能通过碎片化的学习、试错、摸索着去达到该岗位的业务能力要求。