Lecture de papier HideSeeker


Insérer la description de l'image ici

Insérer la description de l'image ici

3.1 Présentation de notre système HideSeeker

Nous avons conçu une solution appelée « HideSeeker » pour découvrir les informations privées cachées par ces deux techniques d'obscurcissement, y compris, mais sans s'y limiter. Étant donné une image partiellement protégée par des techniques d'obscurcissement, telles que la pixellisation, le flou, les graffitis, la superposition d'autocollants et l'inpainting, notre méthode localise les régions de confidentialité obscurcies et déduit les catégories d'objets cachés dans les régions de confidentialité. Comme le montre la figure 3, HideSeeker se compose de trois modules : l'extraction d'informations visuelles, l'apprentissage de graphiques de relations et le raisonnement sur les objets cachés.

Extraction d'informations visuelles : Tout d'abord, nous espérons extraire des informations contextuelles sur les objets cachés. Nous observons que les informations visuelles des images peuvent être sémantiquement divisées en trois catégories : les zones floues, les objets identifiables et les scènes. Étant donné que toutes les techniques d’obscurcissement, sans exception, laissent des traces de falsification d’image, nous nous appuyons sur des modèles de détection et de localisation de falsification d’image pour localiser les régions obscurcies. Nous définissons les objets et scènes reconnaissables comme le contexte de la région de confusion. Des modèles de détection d'objets sont appliqués pour extraire des caractéristiques régionales et détecter des objets identifiables. De plus, nous utilisons les caractéristiques visuelles de l’image entière comme représentation de la scène.

Apprentissage des graphes relationnels : Deuxièmement, nous construisons un graphe G = ⟨ V , E 〉 G = ⟨V, E〉g=⟨V , _E , où le nœud définitVVRégion de confusion de modélisation V et son contexte, ensemble de bordsEEE modélise les relations sémantiques et spatiales entre eux. Pour les trois types d'informations visuelles sur lesquels nous nous concentrons, nous définissons respectivement les nœuds de région de confusion, les nœuds d'objets identifiables et les ensembles de nœuds de scène. De plus, nous définissons différentes arêtes en fonction des relations entre différents ensembles de nœuds.

Inférence d'objets cachés : Enfin, nous déduisons la probabilité d'une confusion de classe d'objets sur la base du graphe de relations d'image construit. Nous appliquons des réseaux de neurones graphiques pour apprendre des représentations de nœuds de région déroutants en agrégeant de manière itérative les informations contextuelles de leurs quartiers. L'agrégation et la mise à jour des représentations de nœuds sont guidées par Gate Recurrent Unit [ 22]. De plus, nous regroupons les mécanismes d'attention dans des réseaux de neurones graphiques pour apprendre les relations latentes entre les régions de confusion, les objets identifiables et les scènes.




3.2 Extraction d'informations visuelles

Dans ce module, nous obtenons toutes les informations visuelles observables à partir de l'image floue. Quant aux informations visuelles requises, nous nous inspirons des observations humaines d’images préservant la vie privée. Lorsque les gens voient une image protégée contre le flou sur une plate-forme sociale, leurs yeux ont tendance à se concentrer sur la zone floue en raison d'une incohérence visuelle ou d'anomalies sémantiques avec d'autres zones. Si le spectateur souhaite savoir ce qui est protégé, il essaiera d'observer les informations contextuelles des zones obscurcies affichées dans l'image et les relations entre elles, et utilisera ses connaissances préalables pour déduire la catégorie de l'objet caché. En prenant la deuxième image de la figure 2 (b) comme exemple, les gens peuvent facilement localiser la zone floue au premier coup d'œil, c'est-à-dire la zone marquée par le cadre rouge. En plus de cela, nous pouvons également identifier le clavier et le dispositif d'affichage sur la table. On peut en déduire que cette photo a probablement été prise dans un bureau. Bien que flou, on peut en déduire que l’objet flou lié à la vie privée sur le bureau pourrait être un ordinateur portable.


Sur la base de cette intuition, notre méthode proposée trouve d'abord les régions floues et extrait leurs caractéristiques visuelles régionales. Les informations contextuelles des objets cachés sont regroupées en trois types : zones de confusion, objets identifiables et scènes. Les techniques d'obscurcissement modifient ou remplacent les valeurs de pixels des objets liés à la confidentialité. Par conséquent, il nous est difficile de nous appuyer sur les modèles de détection d’objets traditionnels pour extraire des caractéristiques visuelles originales à des fins de classification. Pour les tâches de classification sur des images obscurcies, les méthodes basées sur les propositions de régions fonctionnent souvent mal par rapport aux images non obscurcies. Cependant, nous considérons l’obscurcissement comme un moyen de falsifier l’image originale. Des recherches récentes ont exploré la détection et la localisation de la falsification d'images sur la base d'indices tels que des incohérences visuelles [20,40], des anomalies locales [ 41], des modèles de bruit [ 55,58]. Nous prévoyons d'appliquer un modèle de détection et de localisation de falsification d'image avec de grandes capacités de généralisation à travers différentes techniques d'obscurcissement. Avec l'aide de ManTra-Net [41], nous avons le masque binaire M ∈ RH × WM∈\mathbb{R}^{H×W}MR.H × W , oùmij ∈ M m_{ij}∈MmjeM est défini comme :

mij = { 1 , le pixel à la position ( i , j ) est prédit comme obscurci ; 0 , sinon. m_{ij}=\left\{\begin{array}{ll} 1, & \text { le pixel à la position }(i, j) \text { est prédit comme obscurci ; } \\ 0, & \text { sinon. } \end{array}\right.mje={ 1 ,0 , le pixel à la position  ( je ,j )  est prédit comme obscurci ;  sinon .

Afin d'extraire la position de la zone floue, la distance entre pixels est utilisée pour mij m_{ij}mjeEffectuez le clustering. Les pixels de masque dans la même zone obscurcie ont tendance à être plus proches que les pixels de masque dans d'autres zones. Pour chaque groupe de pixels, nous prenons la zone de délimitation minimale pouvant contenir le pixel groupé comme emplacement de la région de confusion. L'emplacement de la région de confusion est marqué comme B p = { b 1 p , … , b N pp } B^{p}=\left\{b_{1}^{p}, \ldots, b_{N_{p }} ^{p}\droite\}Bp={ b1p,,bNpp} , où l'exposantppp est "lié à la vie privée". De plus, dans Faster RCNN [30], selon la boîte englobantebip ∈ B p b_{i}^{p} \in B^{p}bjepBp , extrayez les caractéristiques visuelles régionales fip ∈ F p f_{i}^{p} \in F^{p}de la couche entièrement connectée (FC) après la couche de regroupement de régions d'intérêt (ROI)FjepFp .


En plus des objets liés à la confidentialité cachés dans les zones obscurcies, certains autres objets identifiables peuvent inciter les utilisateurs à partager des images ou à obscurcir des zones. Grâce aux caractéristiques visuelles restantes, nous pouvons facilement détecter et identifier ces objets avec des modèles de détection d'objets. Nous appliquons Faster RCNN [30], un modèle de détection d'objets disponible dans le commerce, pour la détection et la classification d'objets identifiables. Pour l'objet oi \mathbf{o}_{i}oje, nous extrayons les caractéristiques visuelles fio f_{i}^{o}Fjeo, tout comme nous l'avons fait pour la région de confusion. Nous appelons les résultats de classification et de régression de la boîte englobante du détecteur d'objets la classe d'objets identifiables lio ∈ L o l_{i}^{o} \in L^{o} respectivement.jejeoLo somme positionbio ∈ B o b_{i}^{o} \in B^{o}bjeoBo


Selon [36], la scène d'une image est souvent associée à des informations privées. Par exemple, les informations privées impliquées dans les images prises dans la « rue » sont susceptibles d'être liées aux « voitures » ou aux « personnes ». Par conséquent, nous considérons les scènes comme des indicateurs potentiels d’objets liés à la vie privée. Pour le scénario s \mathbf{s}s , nous cherchons à apprendre les caractéristiques globales de l’image en tant que représentations. Nousdécrivons la scène via des caractéristiques visuelles dérivées de la dernière couche convolutive deResNet-50Places365[53]L'ensemble de données Places365contient près de 1,8 million d'images provenant de 365 catégories de scènes.




3.3 Apprentissage des graphiques de relations

Pour chaque image, nous utilisons le graphe de relation GG appris à partir des informations visuelles extraitesG pour décrire l'image. Ce module vise à construire un graphique qui représente les relations sémantiques et spatiales entre les régions confuses et leurs informations contextuelles. Nous exprimons le graphe de relation commeG = ⟨ V , E 〉 G = ⟨V, E〉g=⟨V , _E , ​​​​dans lequelVVLes nœuds en V représentent les informations visuelles du module d'extraction d'informations visuelles, EELes arêtes de E représentent des relations. L'apprentissage des graphes de relations est décrit dans l'algorithme 1. Puisque nous extrayons trois types de sémantique incluant les zones de confusion, les objets identifiables et les scènes, nous définissons des ensembles de nœuds qui leur correspondent respectivementV = { V p , V o , V s } V=\left\{V^ {p}, V^ {o}, V^{s}\droite\}V={ Vp ,Voh ,Vs } :

Nœuds d'objet reconnaissables V o V^{o}Vo : Nous détectons et classons les objets qui apparaissent simultanément avec la région de confusion. Grâce au détecteur d'objets Faster RCNN, nous pouvons obtenir la catégorie et l'emplacement prédits de l'objet identifiable. Chaque objet est défini comme un nœud identifiable v∈vo. Nous concaténons ensuite les étiquettes de catégorie, les cadres de délimitation et les caractéristiques visuelles régionales en tant que représentations de nœuds de nœuds d'objet identifiables : xo = [fo∥lo∥bo].

Nœuds de région obscurcis V p V^{p}Vp : Chaque nœud V∈V p représente une région de confusion dans l'image. Nous obtenons l'emplacement de la région représentée par le cadre de délimitation et les caractéristiques visuelles régionales dérivées du détecteur d'objets et les fusionnons en nœuds.


Insérer la description de l'image ici

Nœud de scène V s V^{s}VsV s V^{s}Vs ne contient qu'un seul nœud V représentant la description de la scène. La représentation du nœud de scène v comprend les caractéristiques visuelles et les résultats de classification du module d'extraction d'informations visuelles. Nous représentons le nœud de scène xs comme une épissure :xs = [ fs ∥ ls ∥ 0 ] \mathbf{x}^{s}=\left[f^{s}\left\|l^{s}\right\| \ mathbf{0}\right]Xs=[ fsje _0 ] , où 0 est un remplissage pour conserver les mêmes dimensions que les autres nœuds.

Depuis le nœud uuu au nœudvvChaque arête dirigée eu de v → v e_{u \rightarrow v}etu vAfficher uuuvv __L'influence du v . Dans notre graphique, nous désignons collectivement les nœuds de région obscurcis et les nœuds d'objets identifiables sous le nom denœuds. Nous calculons les relations sémantiques et spatiales entre les régions sous forme de bords entre les nœuds de région. Cependant, la relation entre scènes et régions est très différente de la relation entre régions. Après tout, nous ne pouvons pas calculer la relation spatiale entre un bureau et un bureau. Par conséquent, nous définissons trois types d’arêtes :


Bords entre le nœud de scène et les nœuds de région : Il existe des corrélations empiriques entre les scènes et les objets. Par exemple, vous êtes plus susceptible de voir des bouées ou des parasols sur la plage que dans la cuisine, tandis que vous êtes moins susceptible de voir un micro-ondes dans la rue. Par conséquent, nous calculons les fréquences de cooccurrence bidirectionnelles d’objets et de scènes sur la base d’images floues que nous générons dans des conditions de laboratoire. Comme le montre la figure 4, nous passons :

et P ( s , o ) P(\mathbf{s}, \mathbf{o})P ( s ,o ) est approximativement l'objeto \mathbf{o}o et scènes \mathbf{s}Fréquence de cooccurrence de s , P ( s ) P(\mathbf{s})P ( s ) etP ( o ) P(\mathbf{o})P ( o ) sont respectivement des objetso \mathbf{o}o et scènes \mathbf{s}La fréquence d'apparition de s , pour un nœud objet reconnaissableuuu et le nœud de scènevvv , leur relation est mesurée par la probabilité de cooccurrence. Par conséquent, nous allonsvoustu es arrivévv_Le poids du bord de v est défini comme :

eu → v = P ( v ∣ u ) (3) e_{u \rightarrow v}=P(v \mid u)\tag{3}etu v=P ( vtoi )( 3 )

Bords entre nœuds de région : Si nœud uutu résumesvvv sont tous des nœuds régionaux, on apprenduutu résumesvvRelations sémantiques et spatiales entre v , pour leurs représentations de bords. Deux objets de la même catégorie sont plus étroitement liés que les objets de catégories différentes. Nous mesurons la relation sémantique entre deux régions en calculant la similarité visuelle (similarité visuelle), plus précisément la caractéristique visuellefu f_uFtuet fv f_vFvValeurs par défaut : vis ⁡ uv = fufv ⊤ ∥ fu ∥ ⋅ ∥ fv ∥ \operatorname{vis}_{uv}=\frac{f_{u} f_{v}^{\top}}{\left\| f_{u }\droit\| \cdot\left\|f_{v}\right\|}visUV=∥f _tu ∥f _vFtuFv

Quant à la relation spatiale au nœud uutu résumesvventre v , on considère l'aireuutu résumesvvLa distance, le chevauchement de la zone et l'angle dev , nous calculons les deux centres de la zone( [ xu , yu ] , [ xv , yv ] ) \left(\left[x_{u}, y_{u}\right] ,\left [x_{v}, y_{v}\right]\right)( [ xtu,ouitu],[ xv,ouiv] ) comme la distance qui les sépare :dist⁡ uv = ∥ bu − bv ∥ 2 \operatorname{dist}_{uv}=\left\|b_{u} -distUV=∥b _tubv2. Union intersection (IoU) de deux propositions régionales iou ⁡ uv \operatorname{iou}_{uv}je teUV(voir encadré dans la figure 5(b)) est une mesure du chevauchement des zones. On calcule l'angle thêta ⁡ uv = arctan ⁡ ( yu − yvxu − xv ) \operatorname{theta}_{uv}=\arctan \left(\frac{y_{u}-y_{v}}{x_{u} - x_{v}}\right)thêtaUV=arctan(Xtu−x _vouituouiv) . En combinant les relations sémantiques et spatiales entre les nœuds régionaux, nous obtenonsuutu es arrivévv_L’expression du côté v est :

eu → v = W vvisuv + W d dist ⁡ uv + W i iou uv + W θ theta uv (4) e_{u \rightarrow v}=\mathbf{W}^{v} \mathrm{vis}_{uv }+\mathbf{W}^{d} \operatorname{dist}_{uv}+\mathbf{W}^{i} \text { iou }_{uv}+\mathbf{W}^{\theta} \text {theta}_{uv}\tag{4}etu v=Wvoir _UV+WddistUV+ Wje  te veux UV+Wθ  thêta UV( 4 )

Parmi eux, W v \mathbf{W}^{v}WvW d \mathbf{W}^{d}WdW je \mathbf{W}^{i}WjeW θ \mathbf{W}^{\theta}Wθ est un paramètre qui équilibre le poids des relations sémantiques et spatiales.


Insérer la description de l'image ici




3.4 Inférence d'objets cachés

Sur la base du graphique de relation de chaque image, nous déduisons les catégories d'objets pertinents pour la confidentialité cachés dans les régions obscurcies. Nous espérons apprendre une distribution de probabilité des classes d'objets cachés étant donné la scène et les objets identifiables dans l'image . Nous décrivons notre algorithme dans l'algorithme 2.

Insérer la description de l'image ici

Le réseau neuronal graphique ( GNN ) [32] peut aider à décrire la représentation d'objets cachés via un message itératif passant entre les nœuds à travers le voisinage des objets cachés . Nous définissons le tttht étapes d'itérationvvLe statut du nœud de v est hv (t) \mathbf{h}_{v}^{(t)}hv( t ), nous initialisons le statut du nœud comme :

hv ( 0 ) = xv . (5) \mathbf{h}_{v}^{(0)}=\mathbf{x}_{v} .\tag{5}hv( 0 )=Xv.( 5 )

En une étape d'itération, xv \mathbf{x}_{v} est représenté en agrégeant ses nœudsXvet le statut et la représentation de ses nœuds voisins pour mettre à jour vvL'état du nœud de v . Le processus de communication peut être défini comme :

hv(t) = f(xv, x NBR(v), hv(t − 1), h NBR(v)(t − 1)), (6) \mathbf{h}_{v}^{(t )}=\mathbf{f}\left(\mathbf{x}_{v}, \mathbf{x}_{\mathrm{NBR}(v)}, \mathbf{h}_{v}^{( t-1)}, \mathbf{h}_{\mathrm{NBR}(v)}^{(t-1)}\right),\tag{6}hv( t )=F( xv,XNBR ( v ),hv( t 1 ),hNBR ( v )( t 1 )),( 6 )

f ( ⋅ ) f(·)f ( ) est une fonction paramétrique,NBR ( v ) \mathrm{NBR}(v)NBR ( v ) signifievvNœuds voisins de v .

Certaines études ont montré que les réseaux de neurones convolutifs graphiques (GCN ) contribuent au raisonnement graphique dans la détection d'objets [19, 43]. Ils utilisent des graphiques pour décrire les relations entre les régions et appliquent les GCN pour apprendre les représentations visuelles latentes des régions d'intérêt . Cependant, si les GCN sont appliqués dans notre scénario, le problème auquel nous serons confrontés est que l’état de la région de confusion peut affecter négativement l’apprentissage des autres nœuds. Suite au réseau neuronal Gated Graph ( GGNN ) [22], nous introduisons l'unité récurrente Gated [10] pour contrôler les nœuds de la zone de confusion afin d'identifier les objets via la porte de réinitialisation l'état de confusion nœud de zone en utilisant les messages collectés auprès d'autres nœuds via la porte de mise à jour.

Pour chaque étape de propagation, le nœud vvv s'exprime selon la matrice d'adjacence du graphe, à partir de son nœud voisinv ∈ NBR ( v ) v∈\mathrm{NBR}(v)vLe nœud d'agrégation dans NBR ( v ) est exprimé commex ~ v \widetilde{\mathbf{x}}_{v}X v:

x ~ v ( t ) = E : v ⊤ [ h 1 ( t − 1 ) ⋯ h ∣ V ∣ ( t − 1 ) ] , \extend{\mathbf{x}}_{v}^{(t)} =E_{ : v}^{\top}\left[\begin{array}{lll} \mathbf{h}_{1}^{(t-1)} & \cdots \mathbf{h}_{| V|}^{(t-1)}\end{array}\right],X v( t )=E: v[h1( t 1 )hV ( t 1 )],

E :vE_{:v}E: vest avec le nœud vvLe front entrant lié à v indique que l'état du nœud est au ttthMis à jour vers zvt \mathbf{z}_{v}^{t}en t étapes de propagationzvt, réinitialisé à rvt \mathbf{r}_{v}^{t}rvt

zvt = σ ( W zx ~ v ( t ) + U zhv ( t − 1 ) ) , rvt = σ ( W rx ~ v ( t ) + U rhv ( t − 1 ) ) , (8) \begin{aligned} \mathbf{z}_{v}^{t}&=\sigma\left(\mathbf{W}^{z} \wide assignation{\mathbf{x}}_{v}^{(t)}+ \ mathbf{U}^{z}\mathbf{h}_{v}^{(t-1)}\right), \\\mathbf{r}_{v}^{t}&=\sigma\ gauche (\mathbf{W}^{r} \wide assignation{\mathbf{x}}_{v}^{(t)}+\mathbf{U}^{r} \mathbf{h}_{v} ^{ (t-1)}\right), \end{aligned}\tag{8}zvtrvt=p( WzX v( t )+Uz hv( t 1 )),=p( WrX v( t )+Ur hv( t 1 )),( 8 )

Parmi eux W z \mathbf{W}^{z}WzU z \mathbf{U}^{z}UzW r \mathbf{W}^{r}WrU r \mathbf{U}^{r}Ur sont les paramètres apprenables respectivement dans la porte de mise à jour et la porte de réinitialisation,σ σσ représentesigmoïde. Nous utilisonszvt \mathbf{z}_{v}^{t}zvtrvt \mathbf{r}_{v}^{t}rvtmise à jourvv _L'état du nœud de v est activé en utilisanttanh ⁡ \tanhfonction tanh :

h ~ v ( t ) = tanh ⁡ ( W ⋅ x ~ v ( t ) + U ( rvt ⊙ hv ( t − 1 ) ) ), hv ( t ) = ( 1 − zvt ) ⊙ hv ( t − 1 ) + zvt ⊙ h ~ v ( t ) , (9) \begin{aligned} \widetilde{\mathbf{h}}_{v}^{(t)}&=\tanh \left(\mathbf{W} \cdot \widetilde{\mathbf{x}}_{v}^{(t)}+\mathbf{U}\left(\mathbf{r}_{v}^{t} \odot \mathbf{h}_{ v}^{(t-1)}\right)\right), \\ \mathbf{h}_{v}^{(t)}&=\left(1-\mathbf{z}_{v} ^{t}\right) \odot \mathbf{h}_{v}^{(t-1)}+\mathbf{z}_{v}^{t} \odot \widetilde{\mathbf{h} }_{v}^{(t)}, \end{aligned}\tag{9}h v( t )hv( t )=de poisson( WX v( t )+U( rvthv( t 1 )) ),=( 1zvt)hv( t 1 )+zvth v( t ),( 9 )
Parmi eux,⊙ ⊙ est une multiplication par éléments.

De plus, nous avons observé un phénomène où certains objets sont plus fortement corrélés les uns aux autres. Par exemple, une personne est plus susceptible d'être définie comme privée en raison de sa relation sociale avec une autre personne assistant au même événement qu'en raison de la bouche d'incendie dans la rue. Nous attachons un mécanisme d'attention pour mesurer la contribution des autres nœuds à la représentation des nœuds dans la région confuse. Notre mécanisme d'attention est légèrement différent des Graph Attention Networks ( GAT ) [38]. Nous calculons le nœud de la région de confusion u ∈ V pu \in V^{p}toiVLa corrélation ( pertinence) entre p et ses nœuds voisins

e ~ u → v = fa ( [ W une ⋅ hu ∥ U une ⋅ hv ] ) , α u → v = σ ( LeakyReLU ⁡ ( e ~ u → v ) ) (10) \begin{aligned} \wide assignation}_{u \rightarrow v} & =\mathbf{f}_{a}\left(\left[\mathbf{W}^{a} \cdot \mathbf { h}_{u}\|\mathbf{U}^{a}\cdot\mathbf{h}_{v}\right]\right), \\\alpha_{u\rightarrow v} & =\sigma \ left(\operatorname{LeakyReLU}\left(\wideassignment{e}_{u \rightarrow v}\right)\right) . \end{aligné}\tag{10}e tu vuntu v=Fun( [ WunhtuUunhv] ),=p( LeakyReLU(e tu v) ).( 10 )

Parmi eux [ ⋅ ∥ ⋅ ] [·∥·][ ] représente le nœud de la zone de confusionuuu et un nœudv ∈ NBR ( u ) v∈\mathrm{NBR}(u)vConcaténation de NBR ( u ) ,f}_a(·)Fun( ) est une fonction non linéaire qui mappe les connexions des états de nœuds de grande dimension à des nombres réels,σ σσ est la fonction sigmoïdeactivée. Pour cela, nous collectons les états de ses nœuds voisins et les pondérons avec des coefficients d'attention avant l'épissage :

hv ′ = ∥ u ∈ NBR ⁡ ( v ) α u → vhu (11) \mathbf{h}_{v}^{\prime}=\|_{u \in \operatorname{NBR}(v)} \ alpha_{u\rightarrowv}\mathbf{h}_{u}\tag{11}hv=u NBR ( v )untu vhtu( 11 )

L'identification d'objets cachés dans des régions obscurcies se résume à un problème de classification des nœuds. Enfin, les représentations de l'état final et des nœuds sont utilisées pour la classification :

oi = g ( salut ′ , xi ) o_{i}=\mathbf{g}\left(\mathbf{h}_{i}^{\prime}, \mathbf{x}_{i}\right)oje=g( hje,Xje)

g ( ⋅ ) \mathbf{g}(·)g ( ) est un classificateur, implémentéla fonction softmaxdans nos expériences

Insérer la description de l'image ici




4 ÉVALUATIONS

4.7 Résumé

En résumé, nos résultats expérimentaux démontrent le risque de re -divulgation de la vie privée dans les techniques d'obscurcissement d'images grâce à la précision de la découverte et de la classification des objets cachés . Objectivement, notre méthode surpasse largement plusieurs méthodes possibles pour découvrir des objets liés à la confidentialité cachés dans des images obscurcies. De plus, nous démontrons que notre schéma est généralisable à diverses techniques d’obscurcissement. Nous avons recruté 10 volontaires pour observer 1 000 images obscurcies d'objets cachés, et nos résultats montrent que notre système est comparable aux observations de l'œil humain pour la moitié des techniques d'obscurcissement que nous avons testées. En particulier, notre système peut révéler des informations privées cachées que l’œil humain ne peut pas détecter lorsque l’image est obscurcie par l’inpainting.

De plus, nous avons implémenté notre système sur des appareils mobiles et évalué le coût du temps de traitement. Nous pouvons déduire des objets pertinents pour la vie privée dans des images obscurcies en deux secondes sur un téléphone mobile.




6 DISCUSSIONS ET CONCLUSION

Notre approche peut être affectée par les performances du modèle utilisé pour les tâches de vision par ordinateur, notamment la détection d'objets, la détection et la localisation de manipulation d'images et la classification de scènes. Nous montrons sur la figure 11 que la localisation de régions confuses réduit la précision avec une perte moyenne de 0,39 %.


Insérer la description de l'image ici

D'un autre côté, notre inférence sur les objets cachés repose sur des informations contextuelles sur des régions obscurcies. quand

  • (1) Lorsqu'il n'y a aucun objet identifiable dans l'image, notre solution peut échouer ;
  • (2) La proportion de zone de confusion dépasse 80 % de l'image.

Dans le premier cas, sans aucun indice sur les objets environnants, on ne peut se fier qu'à la classification de la scène et aux éventuels objets fortement liés à la scène. Comme le montre la figure 9, une confusion à grande échelle peut sérieusement affecter notre raisonnement. Il est difficile de classer avec précision une scène lorsque plus de 80 % de l’image est manipulée ou masquée. Il nous est donc difficile de modéliser les informations contextuelles des objets cachés.


Insérer la description de l'image ici


Dans ce travail, pour explorer le risque de fuite de confidentialité des images protégées par l'obscurcissement, nous concevons un système efficace et efficient, HideSeeker, pour révéler les catégories d'objets cachés pertinents pour la confidentialité dans les images obscurcies. Les caractéristiques visuelles originales des objets sont fortement manipulées ou obscurcies par les techniques d'obscurcissement, ce qui empêche les algorithmes de détection d'objets de les reconnaître. Nous relevons ce défi en intégrant les informations contextuelles des objets cachés via des graphiques de relations sémantiques et spatiales.

Plusieurs tâches intéressantes restent des travaux futurs, notamment le traitement

  • 1) Il n'y a pas d'images d'objets identifiables,
  • 2) Images avec des zones extrêmement floues.

Nous prévoyons également d'étendre nos recherches pour découvrir des objets cachés dans des vidéos protégées.

Je suppose que tu aimes

Origine blog.csdn.net/m0_51143578/article/details/131833779
conseillé
Classement