【SQL Server】机器学习的生命周期和角色

机器学习项目十分复杂,因为它们需要不同组专业人员的技能协作。本文旨在介绍的机器学习的生命周期、参与机器学习的专业人员角色介绍以及SQL Server如何支持主体的需求任务。


机器学习生命周期

机器学习是一个复杂的过程,许多方面花费的时间比预期更复杂。下面是一些机器学习要求企业中的数据专业人员支持的方式:

  • 机器学习开头的目标和业务规则的标识。
  • 机器学习专业人员必须要注意的存储、提取和审核数据。
  • 必须标识数据源,并从传感器和业务应用程序中提取相应的数据。
  • 机器学习工作的质量不仅高度依赖于有价值的数据类型,还有提取、存储和处理数据的进程类型。
  • 机器学习项目都是在报告和分析的帮助下完成,不过客户的参与及反馈的不完整有可能造成影响。

SQL Server在许多企业数据专业人员和机器学习专家之间搭建桥梁,体现在:

  • 数据可以是存储在本地或云中
  • SQL Server集成的企业数据处理功能,包括reporting和ETL的每个阶段
  • SQL Server支持数据安全性、数据冗余和审核
  • 提供了资源调控

数据科学家

数据科学家使用不同的工具用于数据分析和机器学习,范围从免费的开源平台到需要深厚技术知识的昂贵统计套件。但是使用SQL Server RPython较这些传统的工具提供了独一无二的好处:

  • 你可以通过使用所选的开发环境开发和测试解决方案,然后用T-SQL代码的一部分部署RPython代码。
  • 从数据科研人员的便携式计算机上移动复杂计算到服务器上,避免数据移动对企业的安全策略造成影响。
  • 通过特殊的R包和Api改进了性能和可扩展性。不再忍受R的单线程、内存密集型体系结构,可以处理大型数据集和多线程、多核、多进程计算。
  • 代码可移植性:在SQL ServerHadoopLinux上利用机器学习服务器可以运行解决方案。

应用程序和数据库开发人员

数据库开发者肩负集成多种技术并将结果整合在一起的任务,以便在整个企业中共享这些结果。数据库开发人员与应用程序开发人员、SQL开发人员以及数据科学家一起设计解决方案,推荐数据管理方法,并设计或部署解决方案。

SQL Server的集成为数据开发人员提供许多好处:

  • 在数据开发人员使用SQL Server Management Studio部署解决方案时,数据科研人员仍可在R Studio工作。并且没有更多RPython解决方案重新编码的工作量。
  • 使用T-SQLRPython优化解决方案,可以更有效地利用数据库专业人员在SQL服务器的知识。
  • 轻松自动处理大量数据,例如根据生产数据生成必须反复运行任务的预测评分。
  • 利用Transact-SQL从任何应用程序访问RPython的脚本。
  • 得益于在数据库中计算多线程,API可以处理大型流式数据集

数据库管理员

数据库管理员必须将存在竞争的项目和优先级集成到数据库服务器中,他们不仅需要为数据科学家提供数据访问权限,还需要为各类报表开发者、业务分析人员和业务数据使用者提供数据访问权限,同时还负责维护操作和报告数据存储的运行状况。在企业中,DBA是构建和部署有效的数据科学基础结构的重要组成部分。

  • SQL server的安全体系结构R Services(数据库内)使数据库保持安全,并将执行其隔离的外部脚本数据库的实例操作。你可以指定谁有权执行机器学习脚本,并使用数据库角色来管理包。
  • 在单独的进程里确保你的服务器继续按常规方式运行。
  • 使用SQL Server资源调控可让你在控制的内存和进程分配给外部运行时,防止海量计算降低服务器的整体性能。

架构师和数据工程师

架构师设计集成机器学习生命周期的所有方面的工作流,数据工程师设计并构建ETL解决方案以及确定如何优化工程机器学习任务。整体的数据平台必须用于平衡竞争的业务需求。

由于R Services(数据库内)紧密集成了其他Microsoft工具,例如商业智能、数据仓库堆栈、企业云、移动工具和Hadoop等,因此它为想要提升高级分析功能的数据工程师或系统架构师提供了一系列好处:

  • 通过使用系统存储过程来填充数据集、生成图形。
  • 调用PythonR脚本获取预测结果。
  • 在没有多个并行工作流数据中,Azure 数据工厂和Azure SQL Database的支持可以容易地使用机器学习处理工作流中的云数据源。

查看转载原文点击这里

猜你喜欢

转载自blog.csdn.net/ymy_666666/article/details/85291544
今日推荐