あなたは本当に「匿名」ではありません:匿名データと匿名化されたデータをどのように描くか?


全文は2715語で、予想学習時間は7分です

ソース:unsplash

匿名化はデータのプライバシーを確​​保するためのものであり、企業はそれを使用して機密データを保護します。そのようなデータには以下が含まれます:

 

・個人データ

・財務情報や企業秘密などのビジネス情報

・軍事秘密や政府情報などの機密情報

 

匿名化は、個人データに関連するプライバシー規制の遵守の例を提供します。個人データとビジネスデータが重複している場所に、顧客情報があります。ただし、すべてのビジネスデータが規制されているわけではありません。この記事では、個人データの保護に焦点を当てます。

 

機密データの種類の例

 

ヨーロッパでは、規制当局は誰かに関連するすべての情報(名前など)を「個人データ」と定義しています。フォームに関係なく、この人物に関連する情報はすべて上記の定義を満たしています。前世紀以来、個人データの収集は徐々に民主化され、データの匿名化の問題が現れ始めています。プライバシー規制は世界中で施行されているため、この問題は特に重要です。

 

データの匿名化とは何ですか?なぜそれを気にする必要がありますか?

 

私たちは古典的な定義から始めます。EUの一般データ保護規則(GDPR)では、匿名の情報を次のように定義しています。「特定または特定可能な自然人とは関係のない情報、またはデータ主体が特定できない、またはもはや特定できない方法で匿名で提供される個人情報。」

  

その中で、「識別可能」と「もはや」は重要です。これは、あなたの名前がデータに表示されなくなることを意味するだけでなく、残りのデータからも発見できないことを意味します。これは、再識別のプロセス(匿名化と呼ばれることもあります)に関連しています。

 

同様に、GDPR(契約の中で)は重要な事実を述べています:「...したがって、データ保護は匿名情報に適用されるべきではありません」。したがって、データを匿名化しようとすると、GDPRデータ保護法の対象から外れます。

 

分析やデータの収益化など、あらゆる処理操作を実行できます。これは多くの機会をもたらします:

 

・データの販売は明らかに好ましい使用法です。世界中で、プライバシー保護法により個人データの取引が制限されており、匿名データは企業に別の選択肢を提供します。

 

・それは協力の機会をもたらします。多くの企業がイノベーションや研究のためにデータを共有しており、匿名のデータはリスクの軽減に役立ちます。

 

・また、データ分析と機械学習の機会も生み出します。互換性を維持しながら機密データを操作する操作は、ますます複雑になっています。匿名データは、統計分析とモデルトレーニングに安全な原材料を提供します。見通しは明るいです。しかし、実際には、本当に匿名のデータはしばしば望まれているものではありません。

 

データのプライバシー保護メカニズムの範囲

 

データのプライバシー保護の範囲があります。長年にわたり、専門家は方法、メカニズム、ツールを統合する一連のテクノロジーを開発してきました。これらのテクノロジーは、さまざまなレベルの匿名性とさまざまな再識別リスクレベルでデータを生成します。その範囲は、個人を特定できるデータ、さらには本当に匿名のデータまでカバーしていると言えます。

 

 データプライバシーの範囲

 

左側には、直接の個人識別番号を含むデータがあります。これらの要素を使用して、名前、住所、または電話番号を識別できます。反対に、それはGDPRによって引用された匿名データです。

 

ご覧のとおり、これらのデータには中間カテゴリがあります。それは、識別可能なデータと匿名データ、つまり偽名データと匿名化データの間にあります。その定義はまだ議論の余地があることに注意してください。一部のレポートでは匿名化を匿名化の一部と見なしていますが、他のレポートでは匿名化を除外しています。

 

この「中間データ」を生成するための技術には、本質的に問題はありません。データを効果的に最小化できます。ユースケースのニーズに応じて、それらは相互に関連付けられ、役立ちます。ただし、真に匿名のデータを生成することはできず、そのメカニズムは再識別を防ぐことを保証できないので、生成したデータを「匿名データ」と呼ぶのは誤解を招きます。

 

匿名性と「匿名性」

 

仮名化と匿名化は、確かにいくつかの方法でデータのプライバシーを保護できます。ただし、GDPRの定義によれば、匿名データを生成することはできません。

 

ソース:unsplash

仮名化テクノロジは、データから直接の個人識別コードを削除または置換します。たとえば、データセットからすべての名前と電子メールを削除した場合、仮名データから誰かを直接識別することはできませんが、間接的に識別することはできます。実際、残りのデータには通常、間接的な識別コードが保持されます。これらの情報を組み合わせた後、生年月日、郵便番号、性別などの直接的な識別コードを作成できます。

 

これに関して、GDPRフレームワークでは、仮名化には別の定義があります。「...個人データは、追加情報を使用しないと特定のデータ主体に帰属できないように処理されます。」匿名データとは対照的に、仮名データはGDPR要件に準拠しています。

 

匿名化テクノロジーは、直接および間接の個人識別コードをデータから削除します。理論的には、匿名化されたデータと匿名化されたデータの境界は単純です。最新のニュースは、データが二度と認識されないようにする技術があることを示しています。これは「何もないことからの疑わしい犯罪」の状況であり、匿名化されたデータは特定される前は匿名です。専門家が最初に特定されなかったデータを再特定しようとするときはいつでも、彼らは開発をさらに推進します。

 

データの再識別は匿名性を再定義し続けています

 

上記のメカニズムタイプはプライバシー保護に同等に効果的ではないため、これらのデータを処理する方法は非常に重要です。企業は「匿名」であると主張するデータを定期的に公開または販売していますが、使用する方法が「匿名性」を保証できない場合、隠れた危険をもたらす可能性があります。

 

多くの事件は、仮名化されたデータのプライバシー保護メカニズムがまだ欠陥があることを示しています。データ内の間接識別コードは、再識別の大きなリスクをもたらします。利用可能なデータの量が増えると、データセットを相互参照する機会も増えます。

 

・1990年、MITの大学院生は、匿名化された医療データからマサチューセッツ州知事を再特定し、その情報を公的国勢調査データと相互参照して、患者のアイデンティティを特定しました。

 

・2006年、AOLは研究プロジェクトの一環として匿名化された検索データを共有し、研究者が検索クエリを背後にいる個人と関連付けることができるようにしました。

 

・2009年、競争の一環として、Netflixは匿名の映画評価データセットをリリースし、テキサスの研究者はユーザーの再識別に成功しました。

 

・2009年にも、研究者は公開情報のみを使用して個人の社会保険番号を予測することができました。

 

最近の研究では、匿名化されたデータを実際に再識別できることが示されています。ベルギーのルーベンヌーブ大学とインペリアルカレッジロンドンの研究者たちは、「15の人口統計属性を使用すると、アメリカ人の99.98%がどのデータセットでも正しく再識別できる」とわかりました。

 

匿名の携帯電話データに関する別の調査は、「4つの時空間ポイントで、個々のユーザーの95%を一意に識別するのに十分です」と示しています。

 

テクノロジーは日々進歩し、より多くのデータが作成されており、研究者は匿名化されたデータと匿名データの間に線を引くために懸命に取り組んでいます。2017年、研究者は次のような論文を発表しました。「インターネットの閲覧履歴は、公開データを通じてソーシャルメディア上の個人情報にのみリンクできます。」

 

もう一つ心配なのは個人情報の漏洩ですますます多くの個人情報が漏洩しています。ForgeRock Consumer Identity Leakage Reportは、2020年の情報漏えい数が昨年を超えると予測しており、米国だけで2020年の第1四半期に16億件を超える顧客レコードが漏えいすることになります。

 

個別に処理されたデータセットは再識別できませんが、漏えいしたデータと組み合わせると、脅威が大きくなります。ハーバード大学の学生は、漏えいしたデータを使用して、データを再特定および匿名化できます。

 

ソース:unsplash

要するに、私たちが「匿名データ」と考えるのは、多くの場合、実際には匿名データではありません。すべてのデータ無害化メソッドが真に匿名のデータを生成するわけではありません。すべてに独自の利点がありますが、匿名性と同じレベルのプライバシーを提供できるものはありません。データの量が増え続けるにつれて、真に匿名のデータを作成することがますます困難になり、企業が再識別可能な個人データを公開するリスクも高まっています。

 


推奨読書トピック

友達の輪を送るなど、コメントを残してください

AIの学習と開発のドライグッズを共有しましょう

編集チーム:Hao Yanjun、Zhu Yi

関連リンク:

https://www.kdnuggets.com/2020/08/anonymous-anonymized-data.html

再印刷する場合は、メッセージをバックグラウンドに残して、再印刷の仕様に従ってください。

おすすめ記事閲覧

ACL2018議事録の50の解釈

EMNLP2017プロシーディングスの28論文の解釈

2018年の上位3つのAIカンファレンスにおける中国の学業成績への完全なリンク

ACL2017議事録:34の解釈と乾物はすべてここにあります

10 AAAI2017クラシックペーパーのレビュー

長押ししてQRコードを識別し、注目を集めます

コアリーダーはあなたを愛しています

おすすめ

転載: blog.csdn.net/duxinshuxiaobian/article/details/108633491