[译] 初创公司的数据科学：简介

原文地址：Data Science for Startups: Introduction

原文作者：Ben Weber

译文出自：掘金翻译计划

本文永久链接：github.com/xitu/gold-m…

译者：临书

校对者：yqian1991

照片来源：rawpixel 发表在 pixabay.com

我最近换了行业，加入了一家创业公司，负责建立数据科学部。虽然我加入时这里已经有了可靠的数据管道，但是没有适用于可重复分析、扩展模型和执行实验的流程。本系列博文的目标是概述如何从头开始为创业公司构建数据科学平台，并使用谷歌云平台（GCP）为读者提供可以自己尝试的真实示例。

本系列适用于希望超越训练模型阶段，以及想构建可能对公司产生影响的数据管道和数据产品的数据科学家和分析师。但是对于希望更好的了解如何与数据科学家合作运行实验和构建数据产品的其他学科来说，它也是有用的。它适用于具有编程经验的读者，本系列主要使用了 R 与 Java 的代码示例。

为什么选择数据科学？

为您的创业公司雇佣数据科学家时，首先要问的问题之一是：数据科学将如何改进我们的产品？在 Windfall Data，我们的产品就是数据，因此数据科学的目标与公司的目标可以很好的协调，可以建立最准确的估算净值模型。而在其他公司（如移动游戏公司），答案可能没那么直接，数据科学可能对了解如何运营业务而不是改进产品更有用。但是在早期阶段就开始收集有关客户行为的数据通常是有益的，这样您就可以在将来改进产品。

在初创公司启动数据科学的好处有：

可以确定要跟踪和预测的关键业务指标
可以建立客户行为的预测模型
可以运行实验以测试产品变化
可以构建支持新产品功能的数据产品

许多公司在前两个或三个步骤中就陷入了困境，并没有充分发挥数据科学的潜力。本系列博客文章的目标是展示如何使用托管服务让小型团队超越仅为计算业务运营指标而搭建数据管道，过渡到数据科学可以为产品提供关键输入的公司。

系列概述

以下是我对此博客系列文章的主题计划。当我写新的部分时，我可能会添加或移动部分内容。如果您认为应该涵盖其他主题，可以在文末提出来。

简介（即本文）：提供在初创公司使用数据科学的动力，并概述本系列文章所涵盖的内容。类似的文章包括数据科学的功能，数据科学扩展还有我的 FinTech 之旅。
跟踪数据：讨论从应用程序和网页捕获数据的动机，提出收集跟踪数据的不同方法，引入隐私和欺诈等问题，并以 Google PubSub 为例。
数据管道：介绍如何使用不同方法收集数据以供分析和数据科学团队使用，讨论了平面文件、数据库和数据池方式，并介绍了基于 PubSub，DataFlow 和 BigQuery 的实现。类似的文章有可扩展的分析管道和游戏分析平台的演进。
商业智能：认识 ETL 的常见实践经验、自动化报告/仪表盘以及计算业务运营指标和 KPI。使用 R Shiny 和 Data Studio 为例。
探索性分析：涵盖用于挖掘数据常用分析，比如构建直方图和累积分布函数、相关性分析以及线性模型的特征重要性。使用 Natality 公共数据集进行示例分析。类似的文章有聚合前 1% 和数据科学可视化的 10 年。
预测建模：讨论监督和非监督学习方法，并介绍流失和交叉推广预测模型，以及评估离线模型性能的方法。
模型制作：展示如何扩展离线模型以获得数百万条记录，并讨论模型部署的批处理和在线方法。类似的文章有在 Twitch 产品化数据科学，还有使用 DataFlow 生成模型。
实验：介绍产品的 A/B 测试，讨论如何配置运行实验的框架，并提供 R 和 bootstrapping 示例分析。类似的文章有分阶段的 A/B 测试。
推荐系统：介绍推荐系统的基础知识，并提供扩展生产系统推荐器的示例。类似的文章有推荐人原型设计。
深度学习：简要介绍一些问题最好通过深度学习来解决的数据科学问题，例如将聊天消息标记为令人反感的。提供带有 Keras 的 R 接口的原型模型示例，以及使用 CloudML 的 R 接口进行产品化。

本系列还存在网络版和印刷版的书。

工具

在整个系列中，我将介绍基于 Google Cloud Platform 构建的代码示例。我选择 GCP，因为它提供了许多托管服务，使小型团队可以构建数据管道，产生预测模型并利用深度学习。也可以通过 GCP 注册免费试用并获得 300 美元的余额。使用免费试用的 GCP 运行本系列中介绍的大多数主题已经够了，但如果您的目标是深入了解云端的深度学习，它将很快过期。

对于编程语言，我将使用 R 来编写脚本，Java 用于生产，以及使用 SQL 来处理 BigQuery 中的数据。我还会介绍其他工具，如 Shiny。建议读者掌握一些 R 和 Java 的使用经验，因为我不会介绍这些语言的基础知识。

Ben Weber 是游戏行业的数据科学家，在 Electronic Arts、Microsoft Studios、Daybreak Games 还有 Twitch 都有工作经验。他还是 FinTech 初创公司的第一位数据科学家。

如果发现译文存在错误或其他需要改进的地方，欢迎到掘金翻译计划对译文进行修改并 PR，也可获得相应奖励积分。文章开头的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。

掘金翻译计划是一个翻译优质互联网技术文章的社区，文章来源为掘金上的英文分享文章。内容覆盖 Android、iOS、前端、后端、区块链、产品、设计、人工智能等领域，想要查看更多优质译文请持续关注掘金翻译计划、官方微博、知乎专栏。