数据科学业务漫谈

将笔记中数据科学部分杂七杂八内容进行整理，分享在此：

对于一个即将开展的数据科学项目，通常需要多方参与和资源调配，那么在此过程中都有哪些步骤和人员安排？本篇文章便对一些常见的业界解决方案进行描述，提出数据科学从业人员的分工以及项目开展过程中遇到问题的解决方案。

数据科学角色分工：

深层分析人才：拥有多项技能，具有处理结构化、非结构化数据的能力，并且可以应用复杂的大规模分析技术。深入学习各类量化学科。此类人才的工作一般是在一个强大的分析沙箱或者工作区中进行大规模数据分析实验
数据专业人员：技术较浅，具有基本的统计学和机器学习知识，能够定义那些使用高级分析可以回答的关键问题。该组成员通常拥有处理数据的基本知识，而且了解一些数据科学家所做的工作
技术和数据支持人员：掌握专业技术可用于支持分析项目，例如配置和管理分析沙箱，以及管理企业和组织内的大规模数据分析架构。

数据科学家三类任务：

将业务的挑战转化为分析的问题：剖析业务问题，考虑问题核心，判断应该采用的分析方法
设计、实施、部署大数据统计模型和数据挖掘技术：运用复杂或高级的分析方法和数据来解决各种业务问题
产生能被用于知道实践的洞见：使用高级方法解决问题本身不一定带来新的商业价值，重要的是要能够从数据中分析出有效见解并进行有效传播

数据科学家五项技能：

统计分析能力
工程能力
怀疑和批判思维
好奇心和创造力
沟通和协作能力

不同于传统的商业智能项目和数据分析项目，数据科学项目本身带有很强的探索性。

提出数据科学项目进行标准化但不僵化的流程管理框架，以确保参与者能以严谨和周全的方式运行项目，并使数据科学项目变得更加严谨且可重复

Crisp-DM的六个流程可及时的正向、反向移动

数据科学项目的七个角色：

业务用户：对业务非常了解，并且通常从分析结果中受益。该角色就项目的北京、成果的价值以及项目成果如何实施向团队提供咨询建议。通常由业务分析师、直线经理或者项目领域的自身领域专家担任这种角色
项目发起人：负责项目的发起工作，为项目提供动力和要求，并定义核心业务问题。通常该角色还为项目提供资金，设置项目事项的优先级，明确预期结果，最后评估团队最终成果的价值
项目经理：负责项目进度和质量，确保达到预期目标
商务智能分析师：以报表的视角，基于对数据、关键绩效指标（KPI）、关键业务指标以及商务智能的深入理解来提供业务领域的专业知识或技能。通常负责创建仪表板和报告，并了解数据更新源和数据源
数据库管理员：提供和配置数据库环境，以支持工作团队的分析需求。该角色的工作职责包括提供对关键数据库表格的访问，并确保数据资源库已被关联相应的安全级别
数据工程师：需要拥有深厚的技术功底，一边进行数据管理和数据提取的SQL查询优化，并负责将数据导入到沙箱中。分析使用的数据库由DBA负责安装和配置，而数据工程师负责执行具体的数据提取工作以及大量的数据操作来协助分析工作。通常该角色与数据科学家紧密合作，以确保用正确的方式生成用作分析的数据
数据科学家：在分析技术、模型建立以及针对给定的业务问题选取有效的分析技术方面提供专业知识和技能。该角色使用项目的可用数据来设计和执行分析方案，确保整体分析目标能够实现

数据分析生命周期：

阶段1——发现：团队成员学习业务领域知识，包括项目的相关历史。如了解过去的类似项目，可否借鉴。团队还需要评估可以用于项目实施的人员、技术、时间和数据。此阶段重点把业务问题转化为分析挑战，以在后续阶段解决。此外还要注意设立初始假设，用于测试并开展机器学习建模。此处考验数据科学家对问题的理解与数学建模能力。建立成功和失败的标准，避免无止尽的尝试

阶段2——数据准备：准备号分析沙箱，执行提取、转换和加载（ETL、ELT）来将数据导入沙箱，有时称为ETLT。彻底熟悉数据

阶段3——规划模型：确定后续模型构建所采用的方法、技术和工作流程。探索数据以了解变量之间的关系，然后挑选关键变量和最合适的模型

阶段4——建立模型：团队创建用于测试、训练和生产的数据集。此外，团队在这个阶段构建并运行由上阶段确定的模型。此阶段团队需考虑现有工具是否满足模型的运行需求，是否需要一个更加强大的模型和工作流的运行环境

阶段5——沟通结果：与利益相关人员进行合作，以第一阶段的标准来判断项目结果成功与否，团队应该鉴别关键的有价值发现，量化其商业价值，并以适当方式总结发现并传达给利益相关人

阶段6——实施：提交最终报告、简报、代码和技术文档。在团队运行模型并产生结果后，根据受众采取相应方式阐述成果非常关键

发现	学习业务领域：建模方法资源评估设定问题：陈述待解决的问题确定利益相关者采访项目发起人形成初始假设明确潜在的数据源
数据准备	沙箱 ETLT 研究数据：确立可能有用的未来数据数据整理可视化EDA 常用工具：Hadoop、Alpine Miner、Openrefine、Data Wrangler
模型规划	特征工程模型选择
模型建立	有意义、解释性是否避免了不可容忍的错误是否需要进一步迭代建模
沟通结果	此时的失败不是真正意义的失败，而是对探索投入的及时止损确定结果是否有统计显著性
实施部署	确保模型能在生产环境中平滑运行，并集成到相关业务流程建立一个对模型精度持续检测的机制，对出界发出警报
*项目总结汇报	受众越是高管，表达越要简介。迅速切入要点，阐述结果对项目发起人的价值（收入），体现业务影响力受众为拥有量化背景时，更多时间用来介绍成果、方法论、以及分析试验。尤其是这类技术的重用性

项目最后阶段：生产最终报告、代码和技术文档

演示文档构成	项目发起人演示文档	分析师团队演示文档
项目目标	列举最重要的3-5个商业指标
主要发现	强调关键信息
方法	高层次方法	高层次方法、建模细节
模型描述	概述	方法
数据来支撑的关键论点	简单图标和图形来支持关键论点	现实细节以支持论点面向分析的图标，如ROC 关键变量的图形化及含义
模型细节	省略这部分，或仅高层次宏观讨论	现实代码或主要逻辑包括模型类型，变量、评估数据等识别关键变量以及影响描述预期的模型性能以及任何警告建模技术的详细描述讨论变量、范围和预测能力
建议	专注于业务影响、包括风险和投资回报率给发起人提供论据来帮助组织内推广	为建模或生产环境中进行部署补充建议

数据科学业务漫谈

猜你喜欢