「あなたは機械学習技術者になることに興味を持っている場合は、Python--に精通している必要がありますが、インフラに興味がある場合は、機械学習は、あなたが行くように真剣に検討を与えるべきである、しかし。」
著者| カレブカイザー
翻訳|半月板、Zebian |郭ルイ
出品 | CSDN(ID:CSDNnews)
以下は翻訳です。
今日は、よく知られた機械学習のPythonは、プロジェクトの中で最も人気のある言語です。R、C ++やその他の言語、およびジュリアが、彼らのサポーターと用法を持っていますが、Pythonは、ほぼすべての主流の機械学習フレームワークは、Pythonを使用して、まだ最も一般的に使用される言語です。
しかし、私たちのCortex(機械学習モデルは、オープンソースプラットフォームのAPIを展開するため)コードベースでは、コードの87.5%はゴーです。
Pythonは誇りに思って機械学習アルゴリズムの生産機械学習システムのほんの一部です。あなたは機械学習APIの大規模生産を実行したい場合は、インフラストラクチャは、次のような機能を実現する必要があります。
自動スケーリング、フローの変動を確実にAPIには影響しません。
API管理、プロセスの同期APIの展開。
スクロールは、ユーザーがモデルを更新する場合、サービスが中断されないことを保証するために更新します。
私たちは、Cortexは、上記インフラストラクチャのすべてと同様に、伐採や、コストの最適化など、他の問題を自動化することで構築されました。
以下の理由から、私たちは、Goはこれらのニーズを満たすソフトウェアを構築するための理想的な選択肢であると信じています。
インフラ機械学習のための重要な同時
ユーザーが別のAPIへの多くの異なるモデルを展開することができ、そしてすべてのモデルは、Cortexクラスタに管理するために入れています。皮質演算子は、次のような、これらの異なる展開を管理するために、いくつかのAPIを介して必要があります。
Kubernetes APIは、皮質APIは、クラスタ上でこの展開モデルを呼び出します。
などEC2オートスケーリング、S3、CloudWatchの、を含む様々なAWSのAPI、皮質は、AWS上で展開を管理するために、これらのAPIを呼び出します。
ユーザーは、APIと直接対話することはありません。クラスタを管理するためのAPIプログラムを呼び出すことによって、皮質は、デプロイおよびモニターAPIを開始します。
以高效、可靠的方式交叉调用这些API是一项难题。采用并发的方式处理这些API调用是最为高效的方式,但同时也带来了复杂性,因为我们不得不担心竞争状况等问题。
Go为解决这个问题提供了一个开箱即用的解决方案:Goroutines。
Goroutines是Go以并发的方式执行代码的函数。我们可以另写一篇文章深入探讨Goroutines背后的工作方式,但概括来说,Goroutines是由Go运行时自动管理的轻量级线程。你可以将多个Goroutine放在一个OS线程上,而且如果Goroutine阻塞了OS线程,则Go运行时会自动将其余的Goroutines移到新的OS线程上。
Goroutines还提供了一种名叫“通道”(channel)的功能,你可以利用这个功能在Goroutines之间传递消息,帮助我们调度请求并防止出现竞争状况。
当然,你也可以利用asyncio等最新的工具在Python中实现这些功能,但Go的设计考虑到了这些情况,使用Go可以减轻我们的工作负担。
使用Go构建跨平台的CLI更容易
Cortex CLI是一个跨平台工具,用户可以使用这个工具直接从命令行部署模型和管理API。
最初,我们使用Python编写了这个CLI,但事实证明,在多个平台上分发这个CLI太困难了。由于Go可以编译成一个二进制文件(不需要管理依赖),所以可以为我们提供了一个简单的解决方案,帮助我们在平台之间分发CLI,而无需额外的工程工作。
Go编译后的二进制文件与解释型语言相比,其性能优势也很明显。根据计算机基准测试结果,Go的速度远胜Python。
许多其他的基础设施CLI工具也是用Go编写的,这绝非偶然,具体的理由请参照下面的第三点。
Go的生态系统非常适合基础设施项目
开源的好处之一在于,你可以向自己欣赏的项目学习。例如,Cortex存在于Kubernetes的生态系统中,而Kubernetes本身也是用Go编写。我们很幸运能够借鉴这个生态系统中许多出色的开源项目,其中包括:
kubectl:Kubernetes CLI
minikube:一种在本地运行Kubernetes的工具
helm:Kubernetes软件包管理工具
kops:管理生产Kubernetes的工具
eksctl:亚马逊EKS的官方CLI
上述这些工具都是Kubernetes项目,而且都是用Go语言编写的。如果你仔细查看CockroachDB和Hashicorp的基础设施项目(包括Vault、Nomad、Terraform、Consul和Packer),就会发现它们统统是用Go语言编写的。
Go在基础架构领域的流行还有另一个影响,那就是大多数对基础架构感兴趣的工程师都很熟悉Go。所以,很容易吸引到这些工程师。我们公司最优秀的一位工程师就是通过AngelList找到我们的,我们很幸运他找到了我们。
Go语言编程是一种享受
我们使用Go构建Cortex的最后一个理由就是,我们很享受Go语言编程。
相对于Python,Go的入门有点艰难。但是,Go的宽容性可以为大型项目带来愉悦感。我们在测试软件上非常严格,但是静态输入和编译(对于初学者来说Go的两大难题)对我们来说就像是防护栏,帮助我们编写(相对而言)没有bug的代码。
你可能会说其他语言有不同的优势,但总的来说,Go能够最大限度地满足我们的技术和美学需求。
Python适用于机器学习,而Go适用于基础架构
我们也很喜欢Python,它在Cortex中占有一席之地,尤其是在处理推理方面。
Cortex服务于TensorFlow、PyTorch、scikit-learn以及其他Python模型,这意味着与模型的接口以及推理之前和之后的处理均在Python中完成。虽然Python代码经过打包部署到Docker容器中,但这些容器是由Go编写的代码编排的。
如果你有兴趣成为一名机器学习工程师,那么必须熟练掌握Python。但是,如果你对机器学习的基础架构感兴趣,则应该认真考虑Go。
原文:https://towardsdatascience.com/why-were-writing-machine-learning-infrastructure-in-go-not-python-38d6a37e2d76
本文为 CSDN 翻译,转载请注明来源出处。
热 文 推 荐
☞台积电否认受美国施压去建厂;微信公众号文章可发放定制红包封面;Git v2.25.0 发布 | 极客头条
☞滴滴章文嵩:一个人的 20 年开源热情和国内互联网开源运动
☞为什么 k8s 在阿里能成功?| 问底中国 IT 技术演进
☞170个新项目,579个活跃代码仓库,Facebook开源年度回顾
你点的每个“在看”,我都认真当成了喜欢