旅游新闻

基于Apache Doris的小米增长分析平台实践_科技频道_东

发布日期:2020-09-14 05:15   来源:未知   阅读:

2、增长分析场景介绍

1、背景

随着小米互联网业务的发展,各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然,让每个业务产品线都自己搭建一套增长分析系统,不仅成本高昂,也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节,让相关业务人员能够专注于自己的技术领域,从而提高工作效率。通过分析调查发现,小米已有的统计平台无法支持灵活的维度交叉查询,数据查询分析效率较低,复杂查询需要依赖于研发人员,同时缺乏根据用户行为高效的分群工具,对于用户的运营策略囿于设施薄弱而较为粗放,运营效率较低和效果不佳。

基于上述需求和痛点,小米大数据和云平台联合开发了增长分析系统(Growing Analytics, 下面简称GA),旨在提供一个灵活的多维实时查询和分析平台,统一数据接入和查询方案,帮助业务线做精细化运营。

如上图所示,分析、决策、执行是一个循环迭代的过程,因此,增长分析查询非常灵活,涉及分析的维度有几十上百个,我们无法预先定义好所有要计算的结果,代价太高,所以这也就要求了所有的数据需要即时计算和分析。同时,决策具有时效性,因此数据从摄入到可以查询的时延不能太高。另外,业务发展迅速,需要增加新的分析维度,所以我们需要能够支持schema的变更(主要是在线增加字段)。

在我们的业务中,增长分析最常用的三个功能是事件分析(占绝大多数)、留存分析和漏斗分析;这三个功能业务都要求针对实时入库(只有append)的明细数据,能够即席选择维度和条件(通常还要join业务画像表或者圈选的人群包),然后在秒级返回结果(业界相关的产品如神策、GrowingIO等都能达到这个性能)。一些只支持提前聚合的预计算引擎(如Kylin),虽然查询性能优秀,香港六合马会公司,但难以支持schema随时变更,众多的维度也会造成Cube存储占用失控,而Hive能够在功能上满足要求,但是性能上较差。

Power by DedeCms