数据来源和技术堆栈是什么?

Share, analyze, and explore game data with enthusiasts
Post Reply
arzina221
Posts: 1314
Joined: Wed Dec 18, 2024 3:00 am

数据来源和技术堆栈是什么?

Post by arzina221 »

该数据产品解决什么业务问题?
Gainsight 提供的数据可帮助客户成功团队优先考虑产品采用率低于标准且地点存在客户流失风险的账户。

与分散在各个来源和地方的原始源数据相比,新的“Gainsight 公司事实”表在单个地方提供了可靠、有用的信息,例如:

“这家公司付给我们多少钱?”
“他们最后一次和我们一起活动是什么时候?”
“他们使用什么功能?”
“他们没有使用哪些?”
“我们有几位客户成功经理,他们每个人都有几百个账户,”Arvind 说。“他们可以与客户进行对话,‘好吧,你有 50 个办事处,但你看,这五个办事处确实遇到了一些问题,也许你应该关注这些问题’。”Arvind 的团队利用产品使用数据帮助使这些对话更有效。


“Gainsight 公司信息”表的数据是每日批处理 英国海外华人电话号码数据 的结果。该过程清理、转换和合并 Envoy 数据仓库中来自不同来源的原始数据。

下图显示了构建模型所涉及的图表或“DAG”的摘要。对于每家公司、每一天,输出表都包含各种关键数据点。


为了运行批处理过程,Arvind 的团队构建了一个由五个关键组件组成的平台。

数据源:Envoy 拥有 20-25 个数据源,涵盖内部和第三方系统。对于 Gainsight,相关来源包括 Envoy 的生产数据库、Segment 事件数据、客户支持工具(例如票证量)、计费系统、电子邮件系统和 Salesforce。
ETL 工具:为了将原始数据从源头导入仓库,Envoy 使用现成的工具(只要可以与数据源集成),包括 Amazon Glue、Fivetran 和 Stitch Data。“对于数据加载,我们的总体理念是,这是一个已解决的问题,我们使用工具。对于自定义提取,我们使用 Singer 构建脚本”,Singer 是一个由 Stitch Data 赞助的开源 ETL 框架,通过 Airflow 进行编排。数据加载每 30 分钟进行一次。
数据仓库:Envoy 将原始数据加载到 Amazon Redshift 中,并配备密集的计算节点(dc2.8xlarge)。
数据建模:一旦数据被加载到 Redshift,就会使用开源分析工程框架 dbt 在 SQL 中进行转换,以创建最终的输出表,例如“Gainsight 公司事实”。
数据服务/“最后一英里”:在 Gainsight 的具体情况下,最终表从仓库卸载到指定的 S3 存储桶中,Gainsight 从那里提取它。其他工具可能需要不同的格式。关键部分是所有逻辑都封装在一个模型中,最终表可以有不同的目的地,例如 S3 存储桶、Redshift 中的查询、数据 API 或数据微服务。
Gaingisht 的模型大约需要 40 分钟才能运行,包括完成所有上游依赖关系以获取最新数据。
Post Reply