Abschließende Überprüfung von Data Mining – Hausaufgabe (kurze Antwort)

Betrieb

1. Was ist die Definition von Data Mining?

Unter Data Mining versteht man den Prozess, aus einer großen Menge verrauschter, unvollständiger, unscharfer und zufälliger Daten Informationen und darin verborgenes, den Menschen im Voraus unbekanntes und potenziell nützliches Wissen zu extrahieren.

2. Was sind die wichtigsten technischen Richtungen des Data Mining?

Antwort: Data-Mining-Techniken können unterteilt werden in: statistische Methoden, Methoden des maschinellen Lernens, Methoden neuronaler Netze und Datenbankmethoden.

3. Beschreiben Sie kurz den Prozess des Data Mining?

( 1 ) Datenerfassung  (2) Merkmalsextraktion und Datenbereinigung (3) Analyseverarbeitung und Algorithmus

4. Was ist die Hauptaufgabe der Datenvorverarbeitung?

(1) Datenbereinigung: Fehlende Werte ausfüllen | Rauschdaten glätten | Ausreißer und Rauschdaten identifizieren und entfernen | Inkonsistenzen auflösen | Redundanz nach Datenintegration auflösen;

(2)  Datenintegration: Mehrere Datenbanken oder mehrere Dateien integrieren;

(3)  Datenkonvertierung: Regularisierung | Aggregation;

(3) Datenreduzierung : Charakteristische Daten extrahieren, Datenmenge reduzieren und gleiche oder ähnliche Analyseergebnisse erzielen können ;

(4)  Datendiskretheit: Manchmal ist dies für einige numerische Daten erforderlich

5. Beschreiben Sie kurz die Visualisierungsmethode hochdimensionaler Daten?

Visualisierung hochdimensionaler Daten: Boxplots und parallele Koordinatendiagramme

6. Was sind die Gemeinsamkeiten und Unterschiede zwischen PCA (Hauptkomponentenanalyse) und LDA (Lineare Diskriminanzanalyse)?
Derselbe Punkt: Beide können die Dimensionalität von Daten reduzieren; beide gehören zur Merkmalsextraktion; beide verwenden die Idee der Matrix-Eigenzerlegung bei der Dimensionsreduzierung; beide gehen davon aus, dass die Daten der Gaußschen Verteilung entsprechen .

Unterschiede:
(1) LDA ist eine überwachte Dimensionsreduktionsmethode, während PCA unbeaufsichtigt ist.

(2) Die Reduzierung der LDA-Dimensionalität wird höchstens auf die Dimension der Anzahl der Kategorien K-1 reduziert, und PCA unterliegt dieser Einschränkung nicht.

(3) LDA wählt die Projektionsrichtung mit der besten Klassifizierungsleistung und PCA wählt die Richtung mit dem größten Datenunterschied aus.

(4) LDA kann die Daten überpassen.

7. Welche Methoden und Formeln gibt es für die Datennormalisierung?

(1) Extremwertstandardisierung:

 (2) Z-Score-Normalisierung:

8. Was ist der Unterschied zwischen Feature-Extraktion und Feature-Auswahl?
Die Methode der Merkmalsextraktion basiert hauptsächlich auf der Beziehung zwischen Attributen . Beispielsweise werden verschiedene Attribute kombiniert, um neue Attribute zu erhalten, wodurch der ursprüngliche Merkmalsraum geändert wird. Die Methode der Feature-Auswahl besteht darin, eine Teilmenge aus dem ursprünglichen Feature-Datensatz auszuwählen, was eine inklusive Beziehung darstellt, ohne den ursprünglichen Feature-Raum zu ändern.

9. Welche Analysemethoden und Formeln gibt es für die Korrelation zwischen Attributen?

(1) Pearson-Korrelation

(2) Chi-Quadrat-Test

10. Was sind die Vorteile von ID3? Mangel?

Mangel:

  • Es werden nur kategoriale Merkmale berücksichtigt, kontinuierliche Merkmale werden nicht berücksichtigt
  • Fehlende Werte werden nicht berücksichtigt
  • Berücksichtigt nicht das Anpassungsproblem
  • Der Partitionierungsprozess stoppt aufgrund unzureichender statistischer Merkmale aufgrund einer zu großen Teilmengengröße

Vorteile: klare Theorie, einfache Methode, starke Lernfähigkeit

11. Ist der C4.5-Algorithmus basierend auf dem ID3-Algorithmus verbessert?
Verbesserung 1: Verwenden Sie die Informationsgewinnrate anstelle des Informationsgewinns , um Attribute auszuwählen

Verbesserung 2: Kann die Diskretisierung kontinuierlicher Wertattribute abschließen.
Verbesserung 3: Kann fehlende Attributwerte verarbeiten.
Verbesserung 4: Bereinigung nach der Erstellung des Entscheidungsbaums

13. Was ist ein häufiges Itemset? Natur?

Häufige Itemsets sind Mengen, deren Unterstützung größer oder gleich der Mindestunterstützung (min_sup) ist.

Natur 1: Eine Teilmenge häufiger Itemsets muss häufige Itemsets sein

Eigenschaft 2: Die Obermenge der seltenen Elementmengen muss selten sein

14. Was ist der Kern und die Idee des APRIORI-Algorithmus?

Kern: Generieren Sie alle häufigen Itemsets.

Idee: Suchen Sie Ebene für Ebene, ermitteln Sie zuerst die häufige Elementmenge mit der größten Länge, dann die häufige Elementmenge mit der Länge 2 usw.: L1 => C2 => L2 => C3.

15. Was sind die Mängel des APRIORI-Algorithmus?

(1) Kann einen riesigen Kandidatensatz generieren.
(2) Der Algorithmus muss den Datensatz mehrmals durchlaufen , was ineffizient und zeitaufwändig ist .

16. Was sind die Grundvoraussetzungen des Clusterings für Algorithmen?

Hohe Ähnlichkeit innerhalb des Clusters, geringe Ähnlichkeit zwischen Clustern

17. Was ist ein Ähnlichkeitsmaß?

Das Ähnlichkeitsmaß ist ein Maß zur umfassenden Bewertung der Ähnlichkeit zwischen zwei Dingen.

( 1) Symmetrischer binärer diskreter Typ

einfache Matching-Methode

SMC=(b+c)/(a+b+c+d)

Asymmetrisches binäres diskretes Attribut ( Jaccard-Koeffizient )

JC=(b+c)/(a+b+c)

(2) Mehrwertiger diskreter Typ

einfaches Matching

 

18. Fehlende Wertverarbeitung?

(1) manuelle Befüllung (2) Sonderwertbefüllung

(3) Auffüllen mit dem Durchschnittswert (4) Auffüllen mit dem wahrscheinlichsten Wert

19. Bitte beschreiben Sie die Kernidee des K-Means-Algorithmus .

(1) Wählen Sie zufällig k Objekte aus. Jedes Objekt repräsentiert den anfänglichen Mittelwert oder die Mitte eines Clusters

(2) Ordnen Sie jedes verbleibende Objekt entsprechend seiner Entfernung vom Clustermittel dem ähnlichsten Cluster zu

(3) Berechnen Sie den neuen Mittelwert jedes Clusters

(4) Gehen Sie zurück zu Schritt 2 und wiederholen Sie die Schleife, bis die Kriteriumsfunktion konvergiert .

20. Warum Datenvorverarbeitung? Nennen Sie drei häufig verwendete Vorverarbeitungstechniken.

Antwort: Der Zweck der Datenvorverarbeitung besteht darin, saubere, präzise und genaue Daten bereitzustellen und die Effizienz und Genauigkeit des Bergbaus zu verbessern.
Vorverarbeitungstechnologie: Datenbereinigung, Datenintegration, Datentransformation, Datenreduktion, Datendiskretisierung.
① Datenbereinigung: Die Daten sind unvollständig, verrauscht und inkonsistent (fehlende Werte ergänzen, Rauschen entfernen und diskrete Punkte identifizieren, inkonsistente Werte in den Daten korrigieren). ② Datenintegration (Aggregation): Aggregieren Sie die Daten und kombinieren Sie die beiden
Daten
aus Eine oder mehrere Datenquellen werden auf einem konsistenten Datenspeichergerät gespeichert.
③ Datentransformation: Daten in eine für das Mining geeignete Form umwandeln. (Glättung, Aggregation, Datenverallgemeinerung, Normalisierung, Datendiskretisierung)
④Datenreduktion: einschließlich Stichproben- und Merkmalsauswahl.

21. Glättungsmethode für verrauschte Daten?

( 1) Binning:
Schritt 1: Die Daten werden in n Bins gleicher Tiefe unterteilt.
Schritt 2: Mittelwert- oder Grenzglättung verwenden.
Je tiefer und breiter das Bin, desto besser ist der Glättungseffekt.
(2) Clustering: Ausreißer löschen.
(3) Regression: Passende Funktion finden

22. Was ist überwachtes Lernen? Was ist der Unterschied zum unüberwachten Lernen? Was sind Trainingssätze und Testsätze?

Im Bereich des maschinellen Lernens wird die Klassifizierung als überwachtes Lernen bezeichnet, da der Lernalgorithmus anhand der Klassenbezeichnungsinformationen überwacht wird, da ihm die Klassenzugehörigkeit jedes Trainingstupels mitgeteilt wird.

Clustering wird als unüberwachtes Lernen bezeichnet, da keine Informationen zur Klassenbezeichnung bereitgestellt werden.

Der Trainingssatz besteht aus Datentupeln und den zugehörigen Klassenbezeichnungen, und der Testsatz besteht aus Testtupeln und den zugehörigen Klassenbezeichnungen.

おすすめ

転載: blog.csdn.net/m0_61640468/article/details/128248320