Bibliothèque d'analyse Pytnon de pratique spéciale Niuke.com (9)

1. Lorsque vous utilisez la base de données matplotlib pour dessiner des images, que signifie le paramètre dpi dans plt.savefig('test', dpi=600) (D).

A. Pixels

B. Taille graphique

C. couleur

D. Points par pouce

Analyse :

       dpi est le nombre de pixels par pouce pour la configuration des graphiques.


2. La mauvaise déclaration sur la détection des valeurs aberrantes dans les options suivantes est (C).

A. L'utilisation de la méthode 3σ doit garantir qu'il y a moins de valeurs aberrantes historiques

B. Vous pouvez utiliser la méthode describe() de la bibliothèque pandas pour faire des statistiques simples

C. L'utilisation de la méthode 3σ doit garantir que les données sont normalement distribuées

L'algorithme de clustering D.DBSCAN peut être utilisé pour la détection des valeurs aberrantes

Analyse :

       A. Option, utilisez la méthode 3σ pour vous assurer qu'il y a moins de points anormaux dans les données historiques, car s'il y a beaucoup de points anormaux, la valeur moyenne sera facilement biaisée par les points anormaux, et les données seront moins fiables si le 3σ méthode est utilisée ;

       B. Option, la méthode describe() observe grosso modo certaines statistiques ;

       C. Option, la condition de la méthode 3σ est que les données doivent obéir à la distribution normale. Selon le principe 3∂, si la valeur aberrante dépasse 3 fois l'écart type, elle peut être considérée comme une valeur aberrante. Lors du traitement des données, fortement ceux qui sont anormaux doivent être éliminés. Si les données n'obéissent pas à la distribution normale, elles peuvent également être décrites par le nombre de fois où l'écart type s'éloigne de la moyenne, puis éliminées. Par conséquent, l'élément C est erroné ;

       D. Option, l'algorithme de clustering DBSCAN est une détection de valeurs aberrantes basée sur la densité, qui peut être utilisée pour la détection de valeurs aberrantes ;

       La bonne réponse est donc C.


3. La fonction dans laquelle des options suivantes peut renvoyer un tableau de distribution normale standard (A).

A.numpy.random.randn

B.numpy.aléatoire.uniforme

C.numpy.random.rand

D.numpy.random.randint

Analyse :

       A. La fonction randn renvoie un tableau d'une forme spécifiée et les valeurs du tableau obéissent à la distribution normale standard (la moyenne est de 0, l'écart type est de 1);

       B. La fonction uniforme échantillonne de manière aléatoire à partir d'une zone uniformément distribuée ;

       C. La fonction rand renvoie une ou un groupe de valeurs d'échantillons aléatoires qui obéissent à la distribution uniforme de "0 ~ 1", et la plage de valeurs est [0,1), à l'exclusion de 1 ;

       D. La fonction randint sélectionne au hasard un nombre défini d'entiers dans une zone donnée ;

       La bonne réponse est donc A.


4. Ce qui suit n'est pas un algorithme de clustering (B).

Ak-signifie

B.KNN

C.DBSCAN

D. GCN

Analyse :

       A. k-means est l'algorithme de clustering le plus basique. Son entrée nécessite le nombre de clusters k. L'objectif du clustering est de rapprocher suffisamment les points de la classe et d'éloigner suffisamment les points entre les classes. A est donc correct ;

       B. KNN est un algorithme de classification en apprentissage automatique, pas un algorithme de clustering ;

       C.DBSCAN est un algorithme de clustering basé sur la densité, qui nécessite que le nombre d'objets contenus dans une certaine zone de l'espace de clustering ne soit pas inférieur à un seuil donné, et lorsque la densité de la zone adjacente dépasse un certain seuil, le regroupement se poursuit ;

       D. La classification GCN est essentiellement un clustering basé sur des graphes.Cependant, les algorithmes de clustering basés sur GCN ont le concept de formation à l'apprentissage en profondeur, tandis que les algorithmes de clustering traditionnels sont déterminés en définissant manuellement des seuils ;

        La bonne réponse est donc B.


5. Deux variables (B) qui doivent être corrélées dans une analyse de régression.

A. La variable dépendante est une quantité aléatoire et la variable indépendante est également une quantité aléatoire

B. La variable dépendante est une quantité aléatoire et la variable indépendante est une quantité contrôlée

C. La variable dépendante est une quantité contrôlée et la variable indépendante est une quantité aléatoire

D. La variable dépendante est la quantité contrôlée et la variable indépendante est également la quantité contrôlée

Analyse :

       Lors de l'analyse de régression, la variable indépendante et la variable dépendante doivent être déterminées à l'avance, et seule la variable indépendante est une quantité contrôlable parmi les deux variables, et la variable dépendante est une quantité aléatoire.

おすすめ

転載: blog.csdn.net/u013157570/article/details/129100722