Azure大数据项目作业角色

大数据项目可能很复杂。通常涉及到数百个决策和多个人员，并且在从设计到生产的项目过程中每个人都发挥着一定作用。

业务利益干系人、业务分析师和商业智能开发人员等角色众所周知且仍具有价值。数据处理方法因技术而异，于是开始有了一些新角色。这些角色提供专业技能，以帮助简化数据工程过程。

具体而言，在现代数据项目中，有三个角色开始变得普遍：

数据工程师

数据工程师预配和设置本地和云中的数据平台技术。他们管理并保护来自多个源的结构化和非结构化数据流。他们使用的数据平台可以包括关系数据库、非关系数据库、数据流和文件存储。数据工程师还确保数据服务安全且无缝地与其他数据平台技术或应用程序服务（如 Azure 认知服务、Azure 搜索甚至机器人）集成。

Azure 数据工程师在 Azure 中侧重于与数据相关的任务。主要职责包括使用服务和工具来引入、传出和转换来自多个源的数据。 Azure 数据工程师与业务利益干系人协作以识别和满足数据需求。他们设计和实现解决方案。他们还管理、监视和确保数据的安全和隐私，以满足业务需求。

数据工程师的角色与数据库管理员的角色不同。数据工程师的工作范围远远超出了管理数据库及其托管服务器的范围。他们还必须为满足业务需求而获取、引入、转换、验证和清理数据。此过程称为“数据整理”。

数据工程师为商业智能和数据科学项目增添了巨大价值。数据整理可能会耗费大量时间。数据工程师整理数据时，项目的进展更快，因为数据科学家可以专注于自己的工作区域。

数据库管理员和商业智能专业人员都可以轻松转换为数据工程师角色。他们只需要了解用于处理大量数据的工具和技术。

数据科学家执行高级分析，以从数据中提取价值。他们的工作各不相同，比如描述性分析和预测分析。描述性分析通过称为探索性数据分析 (EDA) 的过程来评估数据。预测分析用于机器学习，以应用可以检测异常或模式的建模技术。这些都是预测模型的重要组成部分。

描述性分析和预测分析只是数据科学家的工作的一个方面。一些数据科学家的工作甚至可能涉及深度学习领域，反复地尝试使用自定义算法来解决复杂的数据问题。

有传闻表示，数据科学项目的大部分工作是数据整理和特征工程。数据工程师利用其技能成功地整理数据时，数据科学家可以加快试验过程的速度。

AI 工程师使用认知服务、认知搜索和 Bot Framework 等 AI 服务。认知服务包括计算机视觉、文本分析、必应搜索和语言理解 (LUIS)。

AI 工程师不创建模型，而是应用认知服务 API 的预置功能。他们将这些功能嵌入到新的或现有的应用程序或机器人中。他们依靠数据工程师的专业知识，存储从 AI 生成的信息。

例如，AI 工程师可能使用一个处理图像的计算机视觉应用程序。他会要求数据工程师预配 Azure Cosmos DB 实例，用于存储计算机视觉应用程序生成的元数据和标记。

数据工程师、AI 工程师和数据科学家的角色不同。各角色分别解决不同的问题。

数据工程师主要预配数据存储。他们确保安全且经济高效地提取、加载和转换大量数据。

AI 工程师为应用程序添加视觉、语音、语言和知识等智能功能。为此，他们使用现成的认知服务产品/服务。

认知服务应用程序达到容量极限时，AI 工程师请求数据科学家的帮助。数据科学家开发机器学习模型并为 AI 工程师的应用程序自定义组件。

每个数据技术角色都是独一无二的，都对数字转换项目起着重要作用。