(A)連邦学ぶ - 取得知人

一覧
()連邦学ぶ-知人ガイド
連邦の(b)は-Fateスタンドアロンの展開を学びます

1.生成します

人工知能の開発1.1

近年では、人工知能は、顔認識から、波後の波の波をオフに設定し、キャッチとして記述することができ、ライブテストは、アルファ犬ウォーズ人間が無人に、手獅子を移動し、広く精密マーケティングで使用されてきた警察に刑事事件ことがわかりましたAIは徐々に人々の生活のあらゆる局面に入りました。もちろん、オーバーもてはやさ一部を助けるが表示されないことができ、AI -AIの全能の誤解につながった、そう簡単として、なぜ私はそれを利用することができないのですか?追いかけAIはポイントを逃したが、AIは、フィードにデータに依存するだけでなく、高品質なデータの数が多いです。
実生活では、企業の大半を満たすことができ、いくつかの巨大企業を除き、人工知能技術の実現をサポートするには不十分少ないデータ、貧弱なデータ品質の問題は、そこにあります。

1.2法律や規制、保護データのプライバシー

ビッグデータの更なる発展に伴い、データのプライバシーとセキュリティへの関心が世界的な傾向となっています。各データの情報公開となりますメディアから大きな注目を引き起こしたと、このような最近のFacebookのデータ侵害などの公共は、大規模な抗議行動を起こしました。同時に、国は、データのセキュリティとプライバシーの保護を強化している時に、EUは最近、「一般的なデータ保護規則」(一般データ保護規則、GDPR)を導入した新法案は、ますます厳しくなるが、世界のトレンドとなり、そのユーザデータのプライバシーとセキュリティ管理を示しています。これは、人工知能、研究とビジネスコミュニティの分野に現在の状況は、通常、きれいにB側に転送するA側のデータ収集などのデータを使用するパーティデータの収集の一つではありませんし、その後、C側モデリングに転送前例のない挑戦をもたらしています最後に、このモデルはD'sの使用に売却しました。このデータは、GDPRに違反して交換や取引の形で、エンティティ間で転送し、法案は厳しく処罰された可能性があります。同様に、中国では「中国のネットワークセキュリティ法人民共和国」との2017実装「民法の中国の一般原則の人民共和国は、」また、ネットワークオペレータは、第三者との開示、改ざん、それが収集した個人情報の破壊、およびデータトランザクションはならないことを指摘したので、提案された契約の発展を確保する必要性が明確にデータ保護の義務とトランザクションデータの範囲を同意したとき。これらの規制は、人工知能、従来のデータ処理モデルを提示新たな課題の様々な程度を確立します。

1.3データアイランドの問題

データのセキュリティとプライバシー保護法案の重要性を導入し、データ所有者の島の状態に広範なデータ共有が挑戦する前に、個々のデータのバックでは、同時に、インターネット企業は、ユーザーの個人データを収集し、利用することがより困難です。
データアイランド現象だけでなく消えるものではなく、新しい標準になるだろう、でもそれはまた、大規模なグループ内に存在するさまざまな企業や団体の間だけでなく、存在しています。将来的には、我々は現状維持直面しなければならない:私たちは、データをより有効に利用するようにしたいビッグデータとAIとのより意味のあることを行うならば、それは企業間や異なる組織内のユーザー間でのデータ共有、必要であるが、前提の共有データのプライバシー保護とセキュリティを満たしている必要があります。
ため、データアイランドを解決する様々な企業や団体の頭の上にダモクレスぶら下がっの剣のようなプライバシーとデータ漏洩虐待、AI業界を解決すべき最も重要な問題の一つとなっています。

1.4連邦生まれ学習

伝統的な方法のボトルネックにのみ頼って、上記の問題を解決するために浮上しています。どのように一緒に自分のデータをより効率的かつ正確な使用を可能にするために機械学習のためのフレームワークを設計するために、データのプライバシー、セキュリティおよび規制要件を満たすことを前提として、人工知能システムは、人工知能の開発における重要な課題です。私たちは、データサイロの問題を解決する方法の研究に焦点をシフトすることを提案します。私たちは、連邦政府の研究と呼ばれる実行可能なソリューションの出会いのプライバシー保護とデータのセキュリティを、提案しています。
連邦研究は以下のとおりです。

  • 締約国は、プライバシーの法律や規制に違反していない明らかにすることなく、データをローカルに保持します。

  • 仮想関節全データ・モデル、およびシステムの共通の利益を作成するために複数の参加者。

  • 、同じIDとステータスの各参加者の学習の連邦制度で、

  • フェデレーション効果と同様の効果のモデルのデータのセット全体を学習モデル、または(各データ・ユーザー(ユーザーの位置合わせにほとんど差
    アラインメントの条件下アラインメント)または特徴(特徴アラインメント))。

  • 学習は、ユーザまたはアライメント機能しない場合にはマイグレーションは、データ交換暗号パラメータとの間の移行の効果の知識によって達成することができます。

連邦は、二つ以上の当事者がいないローカルエンティティデータも一緒に使用することができるデータの使用は、データサイロ間で協力して問題を解決するために行うことを学びます。

2.定義

2.1概要

地元のない各企業独自のデータを行うには、連邦研究の希望は、その後、連邦政府のシステムパラメータは、データプライバシー規制、仮想コンセンサスモデルの確立に違反することなく、双方向暗号化メカニズム、すなわち下に交換することができます。私たちは一緒に入れて同じようにこの仮想モデルが最良のモデルデータの集約は同じを構築しました。自体は動かないデータの仮想モデルを作成する場合でも、データの漏洩やプライバシー、コンプライアンスに影響を与えません。このように、モデルは、その地域のみ対象のサービスに建てられました。このよう連邦政府機構では、各参加者の、同じIDとステータス、あなたは戦略の共通の繁栄を構築するために連邦制度ながら。このシステムは、連邦政府の研究と呼ばれている理由です。

2.2定義

正確に記載するために、我々は次の定義連邦研究のアイデアは:F_iと(ビジネスとして)データ数の所有者は、私が= 1のときは... Nは、関節、それぞれのデータD_Iトレーニングマシン学習モデルを望んでいる、伝統的なアプローチがあります一方と用途Dは= {Diは、iは1 = ... N}データとM_sum得られたトレーニングモデルにデータを結合します。しかし、データセキュリティに関連し、プライバシーや法的な問題のこの解決策は、多くの場合、実施が困難です。この問題を解決するために、我々は、連邦政府の研究を提案します。連邦これらのデータはまた、計算モデルのトレーニングとモデルM_FED得て確保することができるようすることができ、自分自身のデータD_Iケースの下広場F_iとで与えられていないような手段を学び、そのモデルとM_FEDの効果V_SUM効果V_FED M_SUMモデルとのギャップ十分に小さい、次のとおりです。

|V_FED-V_SUM |<δ、どこδは、任意の小さな正の値です。

2.3分類

私たちは、意志サイロ分布データを分類し、連邦政府の研究のための基礎として。複数のデータを所有検討、各当事者が保持している各データはD_Iデータセットは行列によって表すことができる有します。行列の各行はユーザを表し、各列はユーザの特性を表します。同時に、いくつかのデータセットはまた、ラベルデータが含まれていてもよいです。あなたはユーザーの行動の予測モデルを構築したい場合は、ラベルデータを持っている必要があります。我々は、ラベル機能が呼び出され、ユーザー機能Xと呼ばれているを置くことができY. 例えば、金融セクターでは、必要がラベルYを予測することを利用者のクレジットは、マーケティングの分野では、タグは、Yを購入するユーザーの希望であり、教育の分野では、それはそうで学生の知識の習得とあります。Yは前記Xユーザのタグ付けは、完全なトレーニングデータ(X、Y)を構成します。しかし、現実には、多くの場合、このような状況に遭遇する:各ユーザー・データ・セットが同一でない、またはユーザ特性は同一ではありません。具体的には、2つの連邦政府の学習を含むデータの所有者は、例えば、配信データは次の3つの場合に分けることができる:
一部に重なるユーザ特性二つのデータセット(X1、X2、...)は、大型であり、ユーザ( U1、U2 ...)より小さな重複部分;
ユーザ二つのデータセット(U1、U2 ...)部分が大きく重複し、ユーザ特性(X1、X2、...)より小さな重複部分;
ユーザ2つのデータセットユーザ特性を有する(U1、U2 ...)重複(X1、X2、...)の部分は比較的小さいです。

ここに画像を挿入説明

2.3.1横連邦研究

ユーザ二つに特徴データセットは、より少ないユーザーのケースを重複重複、我々は、横方向(すなわち、ユーザ寸法)セグメンテーションに応じてデータを設定し、同一のユーザを削除するユーザデータ部の両方が一致しない特徴トレーニング。この方法は、連邦政府の研究横断と呼ばれています。例えば、バンクの2つの異なる部分、そのユーザグループは、それぞれの領域から、各交差点は非常に小さく、それぞれがあります。しかし、その操作は同様であるので、ユーザレコードは同じ機能です。この時点で、我々は横共同連邦研究を使用してモデルを構築することができます。GoogleのAndroid携帯電話のプレゼント2017年の共同モデリングプログラム更新データのモデル:単一のユーザーは常にアンZhuoyunにアップロードAndroid携帯電話を使用する際、ローカルに、モデルパラメータとパラメータを更新するように、各データの同じ特性寸法これは、共同学習モデルに入力する連邦政府のプログラムのようなものを持っています。
ここに画像を挿入説明

 step1:参与方各自从服务器A下载最新模型;
step2:每个参与方利用本地数据训练模型,加密梯度上传给服务器A,服务器A聚合各用户的梯度更新模型参数;
step3:服务器A返回更新后的模型给各参与方;
step4:各参与方更新各自模型。

ステップ解釈:従来の機械学習モデルでは、データの通常モデルのトレーニングセットは、予測した後、その後、データセンターのモデルを訓練し、ために必要。横連邦の研究では、別のマシンにすべてのデータを配布し、学習サンプルに基づいて分散モデルとして見ることができ、各マシン・モデルは、サーバからダウンロードして、更新するパラメータサーバのニーズに戻った後、ローカル・データ・モデルのトレーニングを使用します。サーバ集約のパラメータは、各マシンに最新モデルのフィードバックそして、モデルを更新し、各マシンに戻りました。

このプロセスでは、これらは同じであり、モデルを完成各マシン、無交換機の間には依存関係で、各マシンはまた、予測に独立した予測因子であることができ、このプロセスは、サンプルベーストレーニングへ分散モデルとして見ることができます。もともとは地元の問題のAndroid携帯電話のアップデートモデルでエンドユーザーへの風景連邦溶液中でグーグル。

2.3.2連邦縦断的研究

多くの重複および場合のユーザデータの2つのセットのユーザが重複以下、我々は特性寸法、すなわち、縦)セグメンテーションに応じてデータを設定し、ユーザとユーザの両方の機能を削除する前記トレーニングデータの部分と全く同じではありません。この方法では、連邦政府の縦断的研究と呼ばれています。例えば、2つの異なる機関がありますが、銀行は場所で、別のは、電力供給者と同じ場所です。彼らのユーザーベースは、ユーザそう大きな交差点、可能性の高い土地の住民のほとんどが含まれていることです。しかし、国際収支の動作に起因するには、ユーザーの銀行の記録や信用格付けで、電気・プロバイダーそのユーザーはより小さな形状の交点ので、ユーザーの閲覧や購入履歴を維持することです。これらの異なる特徴の連邦縦断的研究は、連邦の学習モデルの能力を強化するために、暗号化された状態で重合させます。現時点では、ロジスティック回帰モデル、ツリーモデルとニューラルネットワークモデルや他の多くの機械学習モデルは、この連邦制度に徐々にビルドに示されています。上に示した学習ステップは、二つの大きなに分かれています。

最初のステップ:暗号サンプルアラインメント。同社は非クロスユーザーの認知レベルにさらされていないので、それは、システムレベルでそれを行うことです。

ステップ2:合わせたサンプルがトレーニングモデルを暗号化:

step1:由第三方C向A和B发送公钥,用来加密需要传输的数据;
step2:A和B分别计算和自己相关的特征中间结果,并加密交互,用来求得各自梯度和损失;
step3:A和B分别计算各自加密后的梯度并添加掩码发送给C,同时B计算加密后的损失发送给C;
step4:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型。

ここに画像を挿入説明
:具体的な手順は以下のようにしているトレーニング
ここに画像を挿入説明
プロセスを通じてパーティーをし、他のデータの特性を知っていない、とだけ研修参加者の終了後にモデルパラメータ、すなわち、金型部分の彼らの側を与えます。

予測プロセス:
以下のように当事者のためにのみそれらに関連するモデルパラメータを取得することができ、双方は、予測に協力する必要があります。
ここに画像を挿入説明
関節のモデリングの結果を:

双方均获得数据保护
共同提升模型效果
模型无损失

2.3.3移行の連邦研究

ユーザと、ユーザが特性データセットは、2つのオーバーラップする場合には以下我々のデータは、セグメント化されていないが、ラベルまたは不十分な学習状況データ転送を克服するために利用することができます。この方法は、連邦移行研究と呼ばれています。一つは、中国の銀行に位置しています例えば、2つの異なる団体があり、それは米国内の別の電気のサプライヤーです。地理的な制約には、これらの2つの機関のユーザーグループ交差点は非常に小さいです。一方、体の異なる種類、特徴データとの重複の少ない部分の両方に起因します。この場合、順序で効果的な連邦政府の研究であることを、我々はモデルの効果を高めるためになるように、データの一方的な小規模および小型ラベルサンプル問題を解決するために学習転送を導入しなければなりません。

3.シナリオ

3.1金融知恵

联邦学习作为一种保障数据安全的建模方法,在销售、金融等行业中拥有巨大的应用前 景。在这些行业中,受到知识产权、隐私保护、数据安全等诸多因素影响,数据无法被直接 聚合来进行机器学习模型训练。此时,就需要借助联邦学习来训练一个联合模型。 以智慧零售业务为例,它的目的是利用机器学习技术为用户带来个性化的产品服务,主 要包括产品推荐与销售服务。智慧零售业务中涉及到的数据特征主要包含用户购买能力,用 户个人偏好,以及产品特点三部分,但是在实际应用中,这三种数据特征很可能分散在三个 不同的部门或企业。例如,银行拥有用户购买能力的特征,社交网站拥有用户个人偏好特征, 而购物网站则拥有产品特点的特征。这种情况下,我们面临两大难题:首先,出于保护用户 隐私以及企业数据安全等原因,银行、社交网站和购物网站三方之间的数据壁垒是很难被打 破的。因此,智慧零售的业务部门无法直接把数据进行聚合并建模;其次,这三方的用户和 用户特征数据通常是异构的,传统的机器学习模型无法直接在异构数据上进行学习。目前, 这些问题在传统的机器学习方法上都没有得到切实有效的解决,它们阻碍着人工智能技术在 社会更多领域中的普及与应用。 而联邦学习正是解决这些问题的关键。设想一下,在智慧零售的业务场景中,我们使用 联邦学习与迁移学习对三方的数据进行联合建模。首先,利用联邦学习的特性,我们不用导 出企业的数据,就能够为三方联合构建机器学习模型,既充分保护了用户隐私和数据安全, 又为用户提供了个性化,针对性的产品服务,从而实现了多方共同受益。同时,我们可以借 鉴迁移学习的思想来应对用户和用户特征数据异构的问题。迁移学习能够挖掘数据间的共同 知识并加以利用,从而突破传统人工智能技术的局限性。可以说,联邦学习为我们建立一个 跨企业、跨数据、跨领域的大数据 AI 生态提供了良好的技术支持。

3.2智慧医疗

如今,智慧医疗也在成为一个与人工智能相结合的热门领域。然而,目前的智慧医疗水 平还远没有达到真正“智慧”的程度。下面,我们将通过 IBM“沃森”的例子探讨目前智慧 医疗的不足之处,并提出一种利用联邦迁移学习提高智慧医疗水平的构想。 IBM 的超级电脑“沃森”是人工智能在医疗领域最出名的应用之一。在医疗领域,沃森 被中国、美国等多个国家的医疗机构用于自动诊断,主攻对多种癌症疾病的确诊以及提供医疗建议。然而,沃森也在不断遭受着外界的质疑。最近曝光的一份文件显示,沃森曾经在一 次模拟训练中错误地开出了可能会导致患者死亡的药物。沃森医疗项目也因此备受打击。那 么沃森为何会做出错误的诊断呢?我们发现,沃森使用的训练数据本应包括病症、基因序列、病理报告、检测结果、医学论文等数据特征。但是在实际中,这些数据的来源却远远不够, 并且大量数据面临着标注缺失的问题。有人估计,把医疗数据放在第三方公司标注,需要动 用 1 万人用长达 10 年的时间才能收集到有效的数据。数据的不足与标签的缺失导致了机 器学习模型训练效果的不理想,这成为了目前智慧医疗的瓶颈所在。 那么,如何才能突破这一瓶颈呢?我们设想,如果所有的医疗机构都联合起来,贡献出 各自那一部分数据,那将会汇集成为一份足够庞大的数据,而对应的机器学习模型的训练效 果也能得到质的突破。实现这一构想的主要途径便是联邦学习与迁移学习。它适用的原因有两个方面:第一,各个医疗机构的数据必然有很大的隐私性,直接进行数据交换并不可 行,联邦学习则能保证不进行数据交换的同时进行模型训练。第二,数据仍然存在着标签缺 失严重的问题,而迁移学习则可以用来对标签进行补全,从而扩大可用数据的规模,进一步 提高模型效果。因此,联邦迁移学习必将在智能医疗的发展道路上扮演弥足轻重的角色。在未来,如果所有的医疗机构能建立一个联邦迁移学习联盟,那或许可以使人类的医疗卫生事业迈上一个全新的台阶。

4.目前进展

当前,业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条。一条是基于硬件可信执行环境(TEE: Trusted Execution Environment)技术的可信计算,另一条是基于密码学的多方安全计算(MPC:Multi-party Computation)。

4.1 TEE

TEE 字面意思是可信执行环境,核心概念为以第三方硬件为载体,数据在由硬件创建的可信执行环境中进行共享。这方面以 Intel 的 SGX 技术,AMD 的 SEV 技术,ARM 的 Trust Zone 技术等为代表。TEE 方案的大致原理如下图所示:
ここに画像を挿入説明

目前在生产环境可用的 TEE 技术,比较成熟的基本只有 Intel 的 SGX 技术,基于 SGX 技术的各种应用也是目前业界的热门方向,微软、谷歌等公司在这个方向上都有所投入。

4.1.1 SGX

SGX(Software Guard Extensions )是 Intel 提供的一套软件保护方案。SGX 通过提供一系列 CPU 指令码,允许用户代码创建具有高访问权限的私有内存区域(Enclave - 飞地),包括 OS,VMM,BIOS,SMM 均无法私自访问 Enclave,Enclave 中的数据只有在 CPU 计算时,通过 CPU 上的硬件进行解密。同时,Intel 还提供了一套远程认证机制(Remote Attestation),通过这套机制,用户可以在远程确认跑在 Enclave 中的代码是否符合预期。
英特尔® SGX 技术可通过在特定硬件 (例如内存) 中构造出一个可信的“飞地”(Enclave),使数据和应用程序的安全边界仅限于“飞地”本身以及处理器,同时其运行过程也不依赖于其他软硬件设备。这意味着数据的安全保护是独立于软件操作系统或硬件配置之外,即使硬件驱动程序、虚拟机乃至操作系统均受到攻击和破坏,也能更有效地防止数据泄露。
ここに画像を挿入説明ここに画像を挿入説明

4.2 MPC

MPC(Multi-party Computation,多方安全计算)一直是学术界比较火的话题,但在工业界的存在感较弱,之前都是一些创业小公司在这个方向上有一些探索,例如 Sharemind,Privitar,直到谷歌提出了基于 MPC 的在个人终端设备的“联邦学习” (Federated Learning)的概念,使得 MPC 技术一夜之间在工业界火了起来。MPC 方案的大致原理如下图所示:
ここに画像を挿入説明

4.2.1混淆电路

混淆电路是图灵奖得主姚期智教授在 80 年代提出的一个方法。其原理是,任意函数最后在计算机语言内部都是由加法器、乘法器、移位器、选择器等电路表示,而这些电路最后都可以仅由 AND 和 XOR 两种逻辑门组成。一个门电路其实就是一个真值表,假设我们把门电路的输入输出都使用不同的密钥加密,设计一个加密后的真值表,这个门从控制流的角度来看还是一样的,但是输入输出信息都获得了保护。

4.2.2 秘密分享

秘密分享的基本原理是将每个数字随机拆散成多个数并分发到多个参与方那里。然后每个参与方拿到的都是原始数据的一部分,一个或少数几个参与方无法还原出原始数据,只有大家把各自的数据凑在一起时才能还原真实数据。

4.2.3同态加密

同态加密是一种特殊的加密方法,允许对密文进行处理得到仍然是加密的结果,即对密文直接进行处理,跟对明文进行处理后再对处理结果加密,得到的结果相同。同态性来自抽象代数领域的概念,同态加密则是它的一个应用。

4.3 案例

4.3.1蚂蚁金服共享机器学习

为了更好的应对形势变化,解决数据共享需求与隐私泄露和数据滥用之间的矛盾,蚂蚁金服提出了希望通过技术手段,确保多方在使用数据共享学习的同时,能做到:用户隐私不会被泄露,数据使用行为可控,我们称之为共享机器学习(Shared Machine Learning)。
共享机器学习的定义:在多方参与且各数据提供方与平台方互不信任的场景下,能够聚合多方信息并保护参与方数据隐私的学习范式。
从 17 年开始,蚂蚁金服就一直在共享机器学习方向进行探索和研究,在结合了 TEE 与 MPC 两条路线的同时,结合蚂蚁的自身业务场景特性,聚焦于在金融行业的应用。

4.3.1.1 特性

蚂蚁金服共享机器学习方案拥有如下特性:

  • 多种安全计算引擎整合,可基于不同业务场景来选择合适的安全技术。既有基于 TEE 的集中式解决方案,也有基于 MPC
    的分布式解决方案;既可满足数据水平切分的场景,也能解决数据垂直切分的诉求;既可以做模型训练,也可以做模型预测。
  • 支持多种机器学习算法以及各种数据预处理算子。支持的算法包括但不限于 LR,GBDT,Xgboost,DNN,CNN,RNN,GNN 等。
  • 大规模集群化。支持大规模集群化,提供金融级的高效、稳定、系统化的支撑。
4.3.1.2 基于 TEE 的共享学习

蚂蚁共享学习底层使用 Intel 的 SGX 技术,并可兼容其它 TEE 实现。目前,基于 SGX 的共享学习已支持集群化的模型在线预测和离线训练。

4.3.1.2.1模型在线预测

预测通常是在线服务。相对于离线训练,在线预测在算法复杂度上面会相对简单,但是对稳定性的要求会更高。
提升在线服务稳定性的关健技术之一就是集群化的实现——通过集群化解决负载均衡,故障转移,动态扩容等稳定性问题。
但由于 SGX 技术本身的特殊性,传统的集群化方案在 SGX 上无法工作。
为此,蚂蚁金服设计了如下分布式在线服务基本框架:

ここに画像を挿入説明

该框架与传统分布式框架不同的地方在于,每个服务启动时会到集群管理中心(ClusterManager,简称 CM)进行注册,并维持心跳,CM 发现有多个代码相同的 Enclave 进行了注册后,会通知这些 Enclave 进行密钥同步,Enclave 收到通知后,会通过远程认证相互确认身份。当确认彼此的 Enclave 签名完全相同时,会通过安全通道协商并同步密钥。
该框架具备如下特性:

1.通过集群化方案解决了在线服务的负载均衡,故障转移,动态扩缩容,机房灾备等问题;
2.通过多集群管理和 SDK 心跳机制,解决代码升级,灰度发布,发布回滚等问题;
3.通过 ServiceProvider 内置技术配合 SDK,降低了用户的接入成本;
4.通过提供易用性的开发框架,使得用户在开发业务逻辑时,完全不需要关心分布式化的逻辑;
5.通过提供 Provision 代理机制,确保 SGX 机器不需要连接外网,提升了系统安全性。

目前在这套框架之上已经支持包括 LR、GBDT、Xgboost 等多种常用的预测算法,支持单方或多方数据加密融合后的预测。基于已有框架,也可以很容易的扩展到其它算法。

4.3.1.2.2模型离线训练

模型训练阶段,除了基于自研的训练框架支持了 LR 和 GBDT 的训练外,蚂蚁金服还借助于 LibOs Occlum 和自研的分布式组网系统,成功将原生 Xgboost 移植到 SGX 内,并支持多方数据融合和分布式训练。通过上述方案,不仅可以减少大量的重复性开发工作,并且在 Xgboost 社区有了新的功能更新后,可以在 SGX 内直接复用新功能,无需额外开发。目前我们正在利用这套方案进行 TensorFlow 框架的迁移。
此外,针对 SGX 当下诟病的 128M 内存限制问题(超过 128M 会触发换页操作,导致性能大幅下降),我们通过算法优化和分布式化等技术,大大降低内存限制对性能的影响。
基于 TEE 的多方数据共享学习训练流程如下:

1.机构用户从 Data Lab 下载加密工具
2.使用加密工具对数据进行加密,加密工具内嵌了 RA 流程,确保加密信息只会在指定的 Enclave 中被解密
3.用户把加密数据上传到云端存储
4.用户在 Data Lab 的训练平台进行训练任务的构建
5.训练平台将训练任务下发到训练引擎
6.训练引擎启动训练相关的 Enclave,并从云端存储读取加密数据完成指定的训练任务。

ここに画像を挿入説明

采用该方式进行数据共享和机器学习,参与方可以保证上传的数据都经过加密,并通过形式化验证保证加密的安全性。

4.3.1.3 基于 MPC 的共享学习

蚂蚁基于 MPC 的共享学习框架分为三层:

  • 安全技术层:安全技术层提供基础的安全技术实现,比如在前面提到的秘密分享、同态加密、混淆电路,另外还有一些跟安全密切相关的,例如差分隐私技术、DH
    算法等等;
  • 基础算子层:在安全技术层基础上,我们会做一些基础算子的封装,包括多方数据安全求交、矩阵加法、矩阵乘法,以及在多方场景下,计算
    sigmoid 函数、ReLU 函数等等;同一个算子可能会有多种实现方案,用以适应不同的场景需求,同时保持接口一致;
  • 安全机器学习算法:有了基础算子,就可以很方便的进行安全机器学习算法的开发,这里的技术难点在于,如何尽量复用已有算法和已有框架,我们在这里做了一些有益的尝试,但也遇到了很大的挑战。

ここに画像を挿入説明

训练引擎的具体架构如下:
ここに画像を挿入説明

其中 Coordinator 部署于蚂蚁平台,用于任务的控制和协调,本身并不参与实际运算。Worker 部署在参与多方安全计算的机构,基于安全多方协议进行实际的交互计算。
用户在建模平台构建好的训练任务流会下发给 Coordinator 的 Task Flow Manager,Task Flow Manager 会把任务进行拆解,通过 Task Manager 把具体算法下发给 Worker 端的 Task Executor,Task Executor 根据算法图调用 Worker 上的安全算子完成实际的运算。
利用这套方法,可以做到数据不出域就可以完成数据共享,训练工具可以部署在本地的服务器。

5资料参考

1.連邦の白い紙学習
https://img.fedai.org.cn/fedweb/1552917119598.pdf
共有機械学習:Googleの「連邦政府の研究」アリは異なる2.金のドレスは、新しいデータサイロソリューション提示し
ます。https:// WWWこの記事だった.infoq.cn /記事/ R2aw6rPCrUvfZA0ivjHO
3.サイロ連邦研究と実践を破るために使用される「ハード」のデータセキュリティ技術
https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/break-down -silos-と-データウェア-強化-security.html
4.共有学習TEEに基づく:データサイロソリューション
https://cloud.tencent.com/developer/article/1511840
連合学習詳しい連邦学習
HTTPSを:// zhuanlan.zhihu.com/p/79284686

推奨される読書:(b)の連邦は-Fateスタンドアロンの展開を学びます

公開された15元の記事 ウォン称賛10 ビュー3000

おすすめ

転載: blog.csdn.net/qq_28540443/article/details/104416436