Modèle réduit de partage de données au niveau de l'entreprise

f3638f244b4c0caa5bd4a7f2e15a2bf8.gif

Le partage de données devient un élément important des stratégies de données des entreprises. Pour les entreprises, les services technologiques cloud d'Amazon comme Amazon Data Exchange offrent un moyen de partager ou de monétiser des données à valeur ajoutée avec d'autres entreprises. Certaines entreprises souhaitent une plate-forme de partage de données sur laquelle elles peuvent construire une approche collaborative et stratégique d'échange de données avec un ensemble limité d'entreprises dans un environnement fermé, sécurisé et exclusif. Par exemple, une société de services financiers avec son cabinet d’audit ou une entreprise manufacturière avec ses partenaires de la chaîne d’approvisionnement. Cela peut faciliter le développement de nouveaux produits et services et contribuer à rendre leurs opérations plus efficaces.

Le partage de données est un effort d'équipe et il convient de noter qu'en plus de construire la bonne infrastructure, un partage de données réussi nécessite également que les entreprises s'assurent que les dirigeants soutiennent les initiatives de partage de données. Ils doivent également veiller à ce que des données de haute qualité soient disponibles. Les propriétaires de plateformes de données et les équipes de sécurité doivent encourager une utilisation appropriée des données et résoudre tout problème de confidentialité.

Cet article traite de diverses options de partage de données et de modèles architecturaux courants que les entreprises peuvent adopter pour configurer leur infrastructure de partage de données en fonction de la disponibilité du service cloud Amazon et de la conformité des données.

Options de partage de données et types de classification des données

Les entreprises sont soumises à diverses exigences de conformité en matière de sécurité lorsqu’elles fonctionnent. Certaines entreprises peuvent utiliser Amazon Web Services comme Amazon Data Exchange. Toutefois, certaines organisations qui travaillent dans des secteurs fortement réglementés, tels que les agences fédérales ou les services financiers, peuvent être limitées à l'utilisation des options Amazon Web Services expressément autorisées. Par exemple, si une entreprise doit opérer dans un environnement Fedramp Medium ou Fedramp High, ses options de partage de données peuvent être limitées aux services AWS disponibles et expressément autorisés. La disponibilité du service est basée sur la certification de la plateforme Amazon Cloud Technology, et la liste verte est basée sur la définition par l'entreprise de son cadre et de ses directives de conformité en matière de sécurité.

Le type de données qu'une entreprise souhaite partager avec ses partenaires peut également avoir un impact sur la méthode utilisée pour le partage des données. Le respect des règles de classification des données peut limiter davantage les options de partage de données qu’ils peuvent choisir.

Voici quelques types généraux de classification des données :

  • Données publiques  – Informations importantes, mais généralement gratuites pour que les gens puissent les lire, les rechercher, les visualiser et les stocker. Ces données ont généralement le niveau de classification et de sécurité le plus bas.

  • Données privées – Informations que vous souhaitez peut-être garder privées, telles que le contenu des boîtes de réception de courrier électronique, des téléphones portables, des numéros d'identification des employés ou des adresses des employés. Les données privées peuvent présenter un léger risque pour les particuliers ou les entreprises si elles sont partagées, détruites ou modifiées.

  • Données confidentielles ou restreintes – Informations sensibles auxquelles des individus ou des groupes limités ont accès, nécessitant généralement une autorisation ou une autorisation spéciale. L'accès aux données confidentielles ou restreintes peut impliquer des aspects tels que la gestion des identités et des autorisations. Des exemples de données confidentielles incluent les numéros de sécurité sociale et les numéros d’identification des véhicules.

Vous trouverez ci-dessous un exemple d'arbre de décision auquel vous pouvez vous référer lorsque vous choisissez une option de partage de données en fonction de la disponibilité du service, du type de classification et du format des données (structurées ou non structurées). D'autres facteurs tels que la disponibilité, l'accessibilité de plusieurs partenaires, la taille des données, les modèles d'utilisation (chargement groupé/accès API), etc. peuvent également influencer le choix du modèle de partage de données.

25b81f6bcfb42398cd5b1ed23cafb842.png

Dans les sections suivantes, nous discutons de chaque mode en détail.

Mode 1 :

Utilisation d'Amazon Data Exchange

Amazon Data Exchange simplifie le processus d'échange de données, aidant les entreprises à réduire leurs coûts, à accroître leur agilité et à accélérer l'innovation. Les entreprises peuvent choisir de partager des données en privé avec des partenaires externes à l'aide d'Amazon Data Exchange. Amazon Data Exchange fournit des contrôles de limites appliqués au niveau de l'identité et des ressources. Ces contrôles déterminent quelles identités externes ont accès à des ressources de données spécifiques. Amazon Data Exchange propose plusieurs modes différents permettant aux parties externes d'accéder aux données, tels que :

  • Amazon Data Exchange pour Amazon Redshift

  • Amazon Data Exchange pour Amazon Lake Formation (actuellement en préversion)

  • Amazon Data Exchange pour les API de données

  • Amazon Data Exchange pour les fichiers de données

  • Amazon Data Exchange pour Amazon S3 (actuellement en version préliminaire)

Le diagramme suivant montre un exemple d'architecture.

7fdab7bdc1ddacd1b8f3371890d90a52.png

Avec Amazon Data Exchange, une fois qu'un ensemble de données est configuré pour être partagé (ou vendu), Amazon Data Exchange gère automatiquement l'autorisation (et la facturation) entre les créateurs et les consommateurs. Les créateurs n'ont pas besoin de gérer des politiques, de configurer de nouveaux points d'accès ou de créer de nouveaux partages de données Amazon Redshift pour chaque consommateur, et l'accès est automatiquement révoqué à la fin de l'abonnement. Cela peut réduire considérablement les frais opérationnels liés au partage de données.

Mode 2 :

Utilisation de la formation Amazon Lake

Gestion centralisée des accès

Vous pouvez utiliser ce mode lorsque les créateurs et les utilisateurs utilisent Amazon Web Services et disposent de comptes Amazon Web Services pouvant utiliser Amazon Lake Formation. Ce modèle fournit un moyen de partager des données sans écrire de code. Le diagramme suivant montre un exemple d'architecture.

46bf286f86aa67cef9449cc9c78f889d.png

Dans ce modèle, un compte dépositaire central est configuré avec Lake Formation, qui gère l'accès aux comptes d'entreprise des créateurs. Les liens à partir des ressources du compartiment Amazon Simple Storage Service (Amazon S3) du compte de production sont créés dans Lake Formation. Le créateur accorde des autorisations Lake Formation sur la ressource Amazon Glue Data Catalog à un compte externe ou directement à un mandataire Amazon Identity and Access Management (IAM) dans un autre compte. Lake Formation utilise Amazon Resource Access Manager (Amazon RAM) pour partager des ressources. Si le compte du bénéficiaire appartient à la même entreprise que le compte du concédant, la ressource partagée peut être immédiatement fournie au bénéficiaire. Si le compte du bénéficiaire n'appartient pas à la même entreprise, Amazon RAM envoie une invitation au compte du bénéficiaire pour accepter ou refuser l'octroi de ressources. Pour rendre la ressource partagée disponible, un administrateur consommateur du compte bénéficiaire doit accepter l'invitation à l'aide de la console Amazon RAM ou de l'interface de ligne de commande Amazon (Amazon CLI).

Les mandataires autorisés peuvent partager explicitement des ressources avec des mandataires IAM dans des comptes externes. Cette fonctionnalité est utile lorsque les créateurs souhaitent contrôler qui, dans un compte externe, peut accéder à leurs ressources. Les mandataires IAM obtiennent des autorisations accordées directement, ainsi que des autorisations accordées au niveau du compte et transmises au mandataire. L'administrateur du lac de données du compte destinataire peut afficher les autorisations directes entre comptes, mais ne peut pas révoquer les autorisations.

Mode 3 :

Utilisation à partir du compte partagé en externe du créateur 

Formation du lac Amazone

Les créateurs peuvent avoir des exigences de sécurité strictes selon lesquelles aucun utilisateur externe ne doit avoir accès à leurs comptes de production ou à leurs comptes de gouvernance centralisés. Il est également possible qu'ils n'aient pas activé Lake Formation sur leurs plateformes de production. Dans ce cas, le compte de production du créateur (Compte A) est dédié à ses utilisateurs internes à l'entreprise, comme le montre le schéma ci-dessous. Le créateur crée un autre compte, le compte de partage externe du créateur (Compte B), dédié au partage externe. Cela donne aux créateurs une plus grande latitude pour créer des politiques spécifiques pour des entreprises spécifiques.

b31f214bd541fc3c93475e7e96371d5a.png

Le créateur met en œuvre un processus pour créer une copie asynchrone des données du compte B. Pour les objets qui doivent être partagés, le compartiment peut être configuré en tant que réplication dans la même région (SRR, Same Region Replication) ou entre régions (CRR, Cross Region Replication). Cela permet de vider automatiquement les données vers le compartiment S3 des ensembles de données externes publiés du compte externe sans écrire de code.

En créant des copies de données, les créateurs peuvent isoler davantage les consommateurs externes de leurs données de production. Cela peut également répondre à toute exigence de conformité ou de souveraineté des données.

Lake Formation est configuré sur le compte B et l'administrateur crée un lien de ressource vers le compartiment S3 des ensembles de données publiés externes dans le compte pour accorder l'accès. L'administrateur accorde l'accès en suivant le même processus que celui décrit précédemment.

Mode 4 :

Utilisation du partage de données Amazon Redshift

Ce modèle est idéal pour les créateurs qui publient des produits de données principalement sur Amazon Redshift. Ce modèle nécessite également que le compte de partage externe du créateur (compte B) et le compte consommateur (compte C) disposent d'un cluster Amazon Redshift chiffré ou d'un point de terminaison Amazon Redshift Serverless, et qu'ils répondent aux conditions préalables de partage de données Amazon Redshift.

Le diagramme architectural suivant montre un aperçu du schéma.

f77dba286eccd439cbf6c78ed60ca34d.png

En fonction des contraintes de conformité du créateur, deux options s'offrent à vous :

  • Option A – Le créateur active le partage des données directement sur le cluster de production Amazon Redshift.

  • Option B : Le créateur peut imposer des restrictions sur le partage du cluster de production. Le créateur crée une simple tâche Amazon Glue pour copier les données du cluster Amazon Redshift du compte de production A vers le cluster Amazon Redshift du compte externe B. Cette tâche Amazon Glue peut planifier des actualisations de données à la demande des consommateurs. Lorsqu'il y a des données dans le compte B, le créateur peut créer plusieurs vues et plusieurs partages de données selon ses besoins.

Dans les deux options, les créateurs ont un contrôle total sur les données partagées, tandis que les administrateurs consommateurs ont un contrôle total sur les utilisateurs de leur entreprise qui peuvent accéder aux données.

Une fois que le créateur et les administrateurs consommateurs ont approuvé la demande de partage de données, l'utilisateur consommateur peut accéder aux données comme si elles existaient dans son propre compte sans écrire de code supplémentaire.

Mode 5 :

Partagez des données en toute sécurité et en privé à l'aide d'API

Vous pouvez utiliser ce modèle lorsque le partenaire externe n'utilise aucun service AWS. Vous pouvez également utiliser ce modèle lorsque le produit de données publié est distribué sur plusieurs services (par exemple, Amazon S3, Amazon Redshift, Amazon DynamoDB et Amazon OpenSearch Service) et que le créateur souhaite conserver une interface unique pour partager les données.

Un exemple de ce scénario d'utilisation est le suivant : la société A souhaite partager certaines données de journal en temps quasi réel avec son partenaire, la société B, et la société B utilise ces données pour générer des informations prédictives pour la société A. L'entreprise A stocke ces données dans Amazon Redshift. L'entreprise A souhaite masquer les informations personnelles identifiables (PII) avant de partager des données transactionnelles avec des partenaires afin de générer des informations de manière abordable et sécurisée. La société B n'utilise pas les services technologiques cloud d'Amazon.

L'entreprise A utilise les fonctions Amazon Lambda ou Amazon Glue pour configurer un petit processus par lots qui interroge Amazon Redshift pour obtenir des données de journal incrémentielles, applique des règles pour masquer les informations personnelles et charge ces données dans un compartiment S3 d'ensembles de données publiés. Cela instanciera le processus SRR/CRR qui videra ces données dans le compartiment de partage externe S3.

Le diagramme ci-dessous montre comment les consommateurs peuvent ensuite accéder à ces données via une approche basée sur une API.

c9d97cc5b3cb75178f01881c6b2fb1d8.png

Ce flux de travail comprend les étapes suivantes :

  1. Les consommateurs d'API envoient des requêtes d'API HTTPS à la couche proxy d'API.

  2. Le proxy d'API transmet les requêtes d'API HTTPS à Amazon API Gateway dans un compte Amazon Web Services partagé en externe.

  3. Amazon API Gateway appelle la fonction Amazon Lambda du récepteur de requêtes.

  4. La fonction de réception de requêtes écrit l'état dans la table de contrôle DynamoDB.

  5. La deuxième fonction Lambda est un interrogateur qui vérifie l'état des résultats dans la table DynamoDB.

  6. La fonction d'interrogation extrait les résultats d'Amazon S3.

  7. La fonction d'interrogation envoie au demandeur une URL pré-signée pour télécharger le fichier à partir du compartiment S3 via Amazon Simple Email Service (Amazon SES).

  8. Le demandeur utilise cette URL pour télécharger le fichier.

  9. Les comptes Network Peripheral AWS autorisent uniquement les connexions Internet sortantes.

  10. La couche proxy API applique des contrôles de sécurité sortants et un pare-feu périmétrique avant que le trafic ne quitte le périmètre réseau du créateur.

  11. La table de routage VPC sortant sécurisé Amazon Transit Gateway autorise les connexions uniquement à partir du sous-réseau du créateur souhaité tout en empêchant l'accès à Internet.

Mode 6 :

Utilisez un point d'accès Amazon S3.

Les data scientists peuvent avoir besoin de collaborer sur des images, des vidéos et des documents texte. Les équipes juridiques et d’audit peuvent avoir besoin de partager des rapports et des déclarations avec les auditeurs. Ce modèle traite des méthodes de partage de tels documents. Ce modèle suppose que les partenaires externes utilisent également la technologie Amazon Cloud. Les points d'accès Amazon S3 permettent aux créateurs de configurer un accès entre comptes, en partageant l'accès avec leurs consommateurs sans modifier les politiques de compartiment.

Un point d'accès est un point de terminaison de réseau désigné attaché à un compartiment qui peut être utilisé pour effectuer des opérations sur les objets S3, telles que GetObject et PutObject. Chaque point d'accès dispose d'autorisations et de contrôles réseau différents qu'Amazon S3 applique à toute demande effectuée via ce point d'accès. Chaque point d'accès applique une stratégie de point d'accès personnalisée, qui est utilisée conjointement avec la stratégie de compartiment attachée au compartiment sous-jacent.

Le diagramme architectural suivant montre un aperçu du schéma.

800c7719e8af49e87f49284f7232be46.png

Le créateur crée le compartiment S3 et permet l'utilisation du point d'accès. Dans le cadre de la configuration, les créateurs spécifient les utilisateurs, les rôles IAM et les autorisations des consommateurs.

Un utilisateur consommateur disposant d'un rôle IAM dans le compte consommateur peut accéder au compartiment S3 via Internet, ainsi que via le point de terminaison du VPC et Amazon PrivateLink, uniquement via Amazon VPC.

Résumer

Chaque entreprise a un ensemble unique de contraintes et d'exigences qui doivent être respectées pour créer une solution de partage de données efficace. Dans cet article, nous présentons les différentes options et meilleures pratiques disponibles pour les entreprises. Les propriétaires de plateformes de données et les équipes de sécurité doivent travailler ensemble pour évaluer quelle approche est la mieux adaptée à votre situation spécifique. L'équipe de compte Amazon Web Services peut également vous aider.

Ressources associées

Pour plus d’informations sur des sujets connexes, consultez les éléments suivants :

  • Limite des données sur la technologie Amazon Cloud

    https://aws.amazon.com/identity/data-perimeters-on-aws/

  • Échange de données Amazon

    https://aws.amazon.com/data-exchange/

  • Partagez en toute sécurité des données entre les comptes AWS à l'aide d'Amazon Lake Formation

    https://aws.amazon.com/blogs/big-data/securely-share-your-data-across-aws-accounts-using-aws-lake-formation/

  • Partager des données entre clusters dans Amazon Redshift

    https://docs.aws.amazon.com/redshift/latest/dg/datashare-overview.html

  • Configuration de l'accès Amazon S3 entre comptes à l'aide de points d'accès S3

    https://aws.amazon.com/blogs/storage/setting-up-cross-account-amazon-s3-access-with-s3-access-points/

URL d'origine : 

https://aws.amazon.com/blogs/big-data/patterns-for-enterprise-data-sharing-at-scale/

L'auteur de cet article

361a34d40fc60569afb4a63af7bd5900.jpeg

Venkata Sistla

Cloud Architect chez Amazon Web Technologies, axé sur les données et l'analyse. Il se spécialise dans la création de capacités de traitement de données qui aident les clients à éliminer les contraintes qui les empêchent d'exploiter les données pour obtenir des informations commerciales.

19c51187ca848936f258bb36884ecdaf.png

Santosh Chiplunkar

Architecte résident en chef d'Amazon Cloud Technology. Il possède plus de 20 ans d’expérience en aidant les clients à résoudre les problèmes liés aux données. Il aide les clients à développer des stratégies de données et d'analyse et leur fournit des conseils sur la manière de les mettre en œuvre.

5d05445f9f330146ed06f1602dea8c56.gif

37b46b6310eb8f58f0afe190ada9ba9a.gif

J'ai entendu, cliquez sur les 4 boutons ci-dessous

Vous ne rencontrerez pas de bugs !

1fce74a7a78c0c51ed69592a2ae85d7a.gif

Guess you like

Origin blog.csdn.net/u012365585/article/details/132530852