Datenanalyse der neuen Koronarpneumonie-Epidemie in den Vereinigten Staaten basierend auf Spark

Datenanalyse der neuen Koronarpneumonie-Epidemie in den Vereinigten Staaten basierend auf Spark

GCC-Studenten plagiieren nicht! ! ! Plagiate sind strengstens untersagt

Vorwort

Die neuartige Coronavirus-Pneumonie-Epidemie im Jahr 2020 in den Vereinigten Staaten ist ein großes globales Ereignis im Bereich der öffentlichen Gesundheit, das tiefgreifende Auswirkungen auf die globale Politik, Wirtschaft, Gesellschaft und andere Bereiche hatte. Bei dieser Epidemie haben Wissenschaftler eine wichtige Rolle gespielt, indem sie aktiv Viruseigenschaften, Übertragungsmechanismen sowie Präventions- und Kontrollstrategien erforschten und kontinuierlich relevante Forschungsergebnisse veröffentlichten.
Ziel dieses Artikels ist es, Spark für die Datenverarbeitung und -analyse zu verwenden, um die Ausbreitung der US-amerikanischen COVID-19-Epidemie im Jahr 2020 im Land zu verstehen und die Beziehung zwischen den staatlichen Epidemiedaten zu untersuchen. Hinsichtlich der Datenverarbeitung und Visualisierung werden zur Umsetzung Spark- und Python-Technologien eingesetzt.
Durch die Sammlung, Bereinigung, Integration und Analyse von Daten hoffen wir, ein umfassenderes Verständnis der Ausbreitung der Epidemie in den Vereinigten Staaten zu erlangen, Datenunterstützung und Anleitung für die Epidemieprävention und -kontrolle bereitzustellen und einen praktischen Fall zu liefern für den Einsatz von Technologie im Bereich der Datenanalyse.

1. Bedarfsanalyse

Um die Daten bestätigter Fälle neuer Kronenpneumonie in den USA im Jahr 2020 zu analysieren, verwenden Sie Python als Programmiersprache, verwenden Sie Spark zum Analysieren der Daten, beschreiben Sie die Analyseergebnisse und verwenden Sie Python zur Visualisierung der Analyseergebnisse. Es gibt hauptsächlich zwei Aspekte der Analyse:
Zeittrendanalyse: Analysieren Sie die tägliche/wöchentliche/monatliche Anzahl neuer bestätigter Fälle, den Trend der Heilungsrate und Sterblichkeitsrate sowie andere zeitbezogene Indikatoren.
Analyse der geografischen Verteilung: Analysieren Sie die Anzahl bestätigter Fälle, Todesfälle und Heilungszahlen in verschiedenen Bundesstaaten/Städten und untersuchen Sie die Beziehung zwischen geografischen Unterschieden und Faktoren wie der Bevölkerungsdichte. Bereitstellung von Erfahrungen und Referenzen für die künftige Epidemieprävention und -kontrolle.

1.1 Datenquelle

Der verwendete Datensatz stammt aus dem US-amerikanischen New Crown Pneumonia Epidemic-Datensatz der Daten-Website Kaggle (Laden Sie den Datensatz von Xuetong herunter – die End-of-Term-Zuordnung), der Datensatz ist in der Datentabelle US-Counties organisiert. Relevant Daten zu bestätigten Fällen von Lungenentzündung bis zum 19.05.2020. Daten enthalten die folgenden Felder:

Feldname Feldbedeutung Beispieldatum
Datum 21.01.2020; 22.01.2020;
Landkreis Bezirk und Landkreis (untergeordnete Einheit des Bundesstaates) Snohomish;
Bundesstaat Bundesstaat Washington
Fälle die kumulierte Anzahl bestätigter Fälle im Bezirk und Landkreis zum jetzigen Zeitpunkt Datum 1,2, 3…
Todesfälle Zum jetzigen Zeitpunkt beträgt die kumulierte Zahl der Todesopfer in diesem Bezirk und Landkreis 1, 2, 3…

Ein Teil der Daten ist in der Abbildung dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 1-us-counties.csv-Dateidaten Abbildung
1.2 Spezifische Anforderungen und Ziele
1) Der Originaldatensatz ist als CSV-Datei organisiert. Um das Spark-Lesen zum Generieren von RDD oder DataFrame zu erleichtern, konvertieren Sie zunächst die CSV in eine TXT-Datei Formatdatei. Der Konvertierungsvorgang wird mit Python implementiert.
2) Laden Sie die Datei in das HDFS-Dateisystem hoch. Der Pfad lautet: „/user/hadoop/us-counties.txt“.
3) Lesen Sie us-counties.txt programmgesteuert, um einen DataFrame zu generieren.
4) Verwenden Sie Spark, um die Daten zu analysieren. Die folgenden Indikatoren werden hauptsächlich gezählt und alle Ergebnisse werden als .json-Dateien gespeichert:
(1) Die kumulierte Anzahl bestätigter Fälle, Todesfälle und Sterblichkeitsraten jedes Staates in den Vereinigten Staaten wird gezählt und die Ergebnisse werden in gespeichert die MySQL-Datenbank.
(2) Zählen Sie die zehn Bundesstaaten mit der größten Anzahl bestätigter Fälle in den Vereinigten Staaten.
(3) Zählen Sie die zehn Bundesstaaten mit der höchsten Zahl an Todesfällen in den Vereinigten Staaten.
(4) Zählen Sie die zehn Staaten mit der geringsten Anzahl bestätigter Fälle in den Vereinigten Staaten.
5) Laden Sie die Spark-Berechnungsdatei result.json in einen lokalen Ordner herunter. Datenvisualisierung der Ergebnisse.
6) Der Programmquellcode erfordert Zeilenkommentare für Tastencodes, IPO-Kommentare für Funktionen, Attributkommentare und Methodenkommentare für Klassen und Objekte.

2. Gesamtdesign

2.1 Die in diesem Experiment verwendete Umgebung

(1) Virtuelle Maschine Oracle VM VirtualBox
(2) Ubuntu-System
(3) Hadoop2.10.0, MySQL
(4) Python: 3.8
(5) Spark: 2.4.7
(6) Anaconda und Jupyter Notebook

2.2 Implementierungsprozess

Fügen Sie hier eine Bildbeschreibung ein

Abbildung 2 – Flussdiagramm

3. Detailliertes Design

3.1 Verwenden Sie Python zum Konvertieren von Dateitypen

Code:
Pandas als PD importieren
data = pd.read_csv(“us-counties.csv”)
file_dir = './'
data.to_csv(file_dir + 'us-counties.txt', sep='\t',index=False , header = True)
Nach der Ausführung befindet sich im selben Verzeichnis eine zusätzliche Datei us-counties.txt

3.2 Dateien nach HDFS hochladen

Laden Sie die Datei us-counties.txt von Windows auf das Ubuntu-System hoch, indem Sie einen freigegebenen Ordner einrichten.
Code:
sudo mount -t vboxsf sharefile /home/hadoop/download
wobei sharefile der Pfad des freigegebenen Ordners und /home/hadoop/ der Download ist path ist der Pfad der virtuellen Maschine.
Wechseln Sie in das Hadoop-Verzeichnis und starten Sie den HDFS-
Code:
cd /usr/local/hadoop/
./sbin/start-all.sh
Öffnen Sie ein neues Terminal und laden Sie die Datei us-counties.txt in den HDFS-
Code hoch :
cd /usr/ local/hadoop/
./bin/hdfs dfs -put /home/hadoop/documents/us-counties.txt /user/hadoop/
./bin/hdfs dfs -ls /user/hadoop/

3.3 Starten Sie MySQL und Pyspark

starte mysql
mysql -u root -p
starte pyspark
cd /usr/local/spark
./bin/pyspark

3.4 Pyspark liest Daten und analysiert

(1) Zählen Sie die kumulative Anzahl bestätigter Fälle, Todesfälle und Sterblichkeitsraten in jedem Bundesstaat der Vereinigten Staaten und speichern Sie die Ergebnisse in der MySQL-Datenbank

Code:

TXT-Datei lesen

rdd = spark.sparkContext.textFile(“/user/hadoop/us-counties.txt”)

Konvertieren Sie Daten in das DataFrame-Format

df = rdd.map(lambda x: x.split(“\t”))
schemaString = „Datum der Fälle im Land, Bundesstaat, Bundesstaat, Todesfälle“
Fields = [StructField(field_name,StringType(),True) for field_name in schemaString.split(" " )]
schema = StructType(fields)
df = df.map(lambda p:Row(p[0],p[1],p[2],p[3],p[4])) df =
spark.createDataFrame (df,schema) #Verbinden Sie den Header und die Daten

Konvertieren Sie den Datentyp in den entsprechenden Typ

df = df.withColumn(„cases“, df[„cases“].cast(„int“))
df = df.withColumn(“deaths“, df[„deaths“].cast(“int“))
df = df.withColumn(„Datum“, df[„Datum“].cast(„Datum“))

Statistiken zur kumulierten Anzahl bestätigter Fälle, Todesfälle und Sterblichkeitsrate für jeden Bundesstaat der Vereinigten Staaten

from pyspark.sql.functions import when
from pyspark.sql.functions import format_string
result1 = df.groupBy(“state”).sum(“cases”, “deaths”)

Konvertieren Sie Werte mit einem Nenner von 0 in 0

result1 = result1.select("state", "sum(cases)", "sum(deaths)").withColumn( "
mortality_rate",
when(result1["sum(cases)"] == 0, 0).otherwise (Ergebnis1[„Summe(Todesfälle)“]/Ergebnis1[„Summe(Fälle)“]))
#Schreiben Sie Daten in die Datenbank, der Datenbankname ist Spark und der Tabellenname ist Ergebnis1 (die Tabelle muss nicht erstellt werden )
result1.write.format(“ jdbc").options(
url="jdbc:mysql://localhost:3306/spark",
drivers="com.mysql.jdbc.Driver",
dbtable="result1",
user= "root",
passwort="1 "
).mode("overwrite").save()
#Daten in Ubuntu lokal
speichern result1.repartition(1).write.format("csv").save("file:// /usr/local/test/ result1.csv")

(2) Statistiken der zehn Bundesstaaten mit den meisten bestätigten Fällen in den Vereinigten Staaten

Code:
#Gruppieren Sie nach dem Statusfeld, summieren Sie die Falldaten und sortieren Sie dann in absteigender Reihenfolge nach den summierten kumulativen Diagnosedaten und nehmen Sie die Top 10 heraus
result2 = df.groupBy("state").sum("cases ").orderBy("sum (cases)", aufsteigend=False).limit(10) #Setzen Sie die Anzahl der Partitionen auf 1, den Dateityp auf json und schreiben Sie result2.repartition(1).write.format(" json")
durch Überschreiben von

(3) Zählen Sie die zehn Bundesstaaten mit den meisten Todesfällen in den Vereinigten Staaten

Code:
#Gruppieren Sie nach dem Statusfeld, summieren Sie die Todesdaten und sortieren Sie dann in absteigender Reihenfolge gemäß den summierten Daten der zehn Bundesstaaten mit den meisten Todesfällen und nehmen Sie die Top 10 heraus
result3 = df.groupBy("state" ).sum("todesfälle"). orderBy("sum(todesfälle)", aufsteigend=False).limit(10)
result3.repartition(1).write.format("json").mode("overwrite"). save("file:///usr /local/test/deathstop10.json")

(4) Statistik der zehn Staaten mit der geringsten Anzahl bestätigter Fälle in den Vereinigten Staaten

Code:
#Gruppieren Sie nach dem Statusfeld, summieren Sie die Falldaten, sortieren Sie dann in aufsteigender Reihenfolge entsprechend den summierten Diagnosedaten und nehmen Sie die Top 10 heraus
result4 = df.groupBy(“state”).sum(“cases”) .orderBy(“sum( case)")).limit(10)
result4.repartition(1).write.format("json").mode("overwrite").save("file:///usr/local /test/quezhenbot10.json" )

4. Test und Analyse der Programmlaufergebnisse

4.1 Verwenden Sie Python, um das Ergebnis in den TXT-Dateityp zu konvertieren, wie in Abbildung 3 dargestellt

Fügen Sie hier eine Bildbeschreibung ein

Abbildung 3-TXT-Dateidiagramm

4.2 HDFS starten, Dateien hochladen

Fügen Sie hier eine Bildbeschreibung ein

Abbildung 4 – HDFS starten
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 5 – Diagramm zum Hochladen von Dateien in HDFS

4.3 Starten Sie MySQL und Pyspark

Abbildung 6, 7
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 6 – Diagramm „MySQL starten“.
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 7 – Pyspark starten

4.4 Statistiken zur kumulierten Anzahl bestätigter Fälle, Todesfälle und Sterblichkeitsrate in jedem Bundesstaat der Vereinigten Staaten

Sehen Sie sich die Ergebnisse auf Pyspark an, wie in Abbildung 8 dargestellt
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 8 – Kumulatives Diagnose-, Todes- und Todesfalldiagramm.
Sehen Sie sich die Daten auf MySQL an, wie in Abbildung 9 dargestellt
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 9: Diagramm der kumulativen Diagnose, Todesfälle und Todesfälle in MySQL

4.5 Zählen Sie die Ergebnisse der zehn Staaten mit der größten Anzahl bestätigter Fälle in den Vereinigten Staaten

Abbildung 10
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 10 – Zehn Staaten mit der größten Anzahl bestätigter Fälle

4.6 Statistik der zehn Bundesstaaten mit der höchsten Zahl an Todesfällen in den Vereinigten Staaten

Abbildung 11
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 11 – Zehn Staaten mit der höchsten Zahl an Todesfällen

4.7 Statistik der zehn Staaten mit der geringsten Anzahl bestätigter Fälle in den Vereinigten Staaten

Abbildung 12
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 12 – Die zehn Staaten mit den wenigsten bestätigten Fällen

4.8 Pyecharts zeichnet ein Liniendiagramm der kumulierten Anzahl bestätigter Fälle und Todesfälle

Wie in Abbildung 13 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 13 – Liniendiagramm der Gesamtzahl der bestätigten Fälle und Todesfälle
Im März 2020 stieg mit der Zeit auch die kumulierte Zahl der bestätigten Fälle und auch die Zahl der Todesfälle blieb nach Anfang April hoch.

4.9 Liniendiagramm der kumulierten Anzahl bestätigter Fälle und Todesfälle in jedem Bundesstaat

Wie in Abbildung 14 und Abbildung 15 dargestellt:
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 14 – Liniendiagramm 1 der kumulativen Diagnosen und Todesfälle
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 15 – Liniendiagramm 2 der kumulierten Anzahl bestätigter Fälle und Todesfälle.
Es ist ersichtlich, dass die Anzahl bestätigter Fälle in jedem Bundesstaat im Laufe der Zeit zugenommen hat.

4.10 Kumulierte Anzahl bestätigter Fälle und Todesfälle nach Bundesstaat

Abbildung 16
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 16 – Die kumulierte Zahl der bestätigten Fälle und die Zahl der Todesfälle in jedem Bundesstaat.
Hinweis: Die kumulative Zahl der Fälle und die Zahl der Todesfälle korrelieren stark positiv. Das bedeutet, dass die Zahl der Todesopfer in einem Staat wahrscheinlich auch höher ist, wenn die Gesamtzahl der Fälle höher ist. Die kumulierte Zahl der Fälle und Todesfälle ist ungleichmäßig verteilt. Beispielsweise ist die Gesamtzahl der Fälle und Todesfälle im Bundesstaat New York viel höher als in anderen Bundesstaaten, während die Gesamtzahl der Fälle und Todesfälle in South Dakota relativ niedrig ist.

20 Staaten mit den meisten bestätigten Fällen in 4.11 – Wortwolkenkarte

Abbildung 17
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 17-Wortwolkendiagramm
Erläuterung: 1. Die Schriftgröße und Farbe im Wortwolkendiagramm spiegeln die Anzahl der bestätigten Diagnosen in jedem Bundesstaat wider. Je größer die Schriftgröße, desto höher die Zahl der bestätigten Fälle im Bundesstaat und je dunkler die Farbe, desto höher die Zahl der bestätigten Fälle im Bundesstaat. Wie aus der Wortwolkenkarte hervorgeht, ist die Zahl der bestätigten Fälle im Bundesstaat New York deutlich höher als in anderen Bundesstaaten. Die Anzahl bestätigter Diagnosen in anderen Bundesstaaten ist relativ gering.
2. Die Schriftartnamen und -layouts in der Wortwolke werden zufällig generiert, sodass die generierte Wortwolke jedes Mal unterschiedlich sein kann, die wiedergegebenen Informationen jedoch konsistent sind.
3. Durch die Erstellung einer Wortwolkenkarte können wir die Unterschiede in der Anzahl bestätigter Fälle zwischen Staaten intuitiv anzeigen und vergleichen und uns dabei helfen, den Entwicklungstrend der Epidemie besser zu verstehen und zu analysieren.

4.12 Die zehn Bundesstaaten mit der höchsten Zahl an Todesopfern in den Vereinigten Staaten

Abbildung 18
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 18 – Zehn Bundesstaaten mit den meisten Todesfällen
Hinweis: Die horizontale Achse stellt die Namen der Bundesstaaten dar und die vertikale Achse stellt die Anzahl der Todesfälle in jedem Bundesstaat dar.
Wie aus dem Histogramm hervorgeht, verzeichnet der Bundesstaat New York mit fast 1 Million Menschen die meisten Todesfälle, während die übrigen Bundesstaaten relativ wenige Todesfälle verzeichnen. Das Histogramm kann uns ein besseres Verständnis der Auswirkungen der Epidemie auf verschiedene Staaten vermitteln und politischen Entscheidungsträgern und der Öffentlichkeit helfen, entsprechende Entscheidungen und Maßnahmen zu treffen. Auf dieser Grundlage können entsprechend der epidemischen Lage in verschiedenen Bundesstaaten gezielte Maßnahmen ergriffen werden, um die Ausbreitung des Virus wirksam einzudämmen und die Gesundheit und Sicherheit der Bevölkerung zu schützen.

4.13 Sterblichkeitsrate nach Bundesstaat in den Vereinigten Staaten

Abbildung 19
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 19 – Sterberatendiagramm für jeden Staat
Jeder Sektor im Kreisdiagramm stellt einen anderen Staat dar, und die Größe des Gebiets entspricht der Sterblichkeitsrate des Staates.
Wie aus dem Kreisdiagramm hervorgeht, weist der Bundesstaat New York mit 7 % die höchste Sterblichkeitsrate auf, während andere Bundesstaaten relativ niedrige Sterblichkeitsraten aufweisen.

4.14 Kumulierte Todeszahl und Sterberaten-Kreisdiagramm in den Vereinigten Staaten

Abbildung 20
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 20 – Kumulierte Todesfälle und Mortalitäts-Kreisdiagramm Die
obige Grafik zeigt das Verhältnis der Gesamttodesfälle zu den Nichttodesfällen. Die beiden Abschnitte im Kreisdiagramm stellen die Anzahl der Todesfälle und die Anzahl der Nicht-Todesfälle dar, und die Größe des Gebiets entspricht der Anzahl der Personen in dieser Kategorie. Aus dem Kreisdiagramm ist ersichtlich, dass die kumulierte Zahl der Todesfälle durch neue Koronarpneumonie in den Vereinigten Staaten derzeit etwa 4,7 % der Gesamtzahl der Fälle ausmacht, während die Zahl der Menschen, die nicht gestorben sind, etwa 4,7 % ausmacht 95,3 %.

4.15 Top 10 Bundesstaaten mit kumulierten Fällen in den Vereinigten Staaten – Trichterdiagramm

Abbildung 21
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 21 – Trichterdiagramm
Das obige Diagramm zeigt einen Vergleich der Top-10-Bundesstaaten nach Fallzahl. Jeder Link im Trichterdiagramm stellt einen Bundesstaat dar und seine Größe entspricht der kumulierten Anzahl von Fällen in diesem Bundesstaat. Wie aus dem Trichterdiagramm hervorgeht, sind New York, New Jersey und Massachusetts die drei Bundesstaaten mit der höchsten Fallzahl, mit kumulierten Fällen von 13,23 Millionen, 4,88 Millionen bzw. 2,47 Millionen.

4.16 Zehn Staaten mit den wenigsten kumulierten Fällen

Abbildung 22
Fügen Sie hier eine Bildbeschreibung ein

Abbildung 22 – Zehn Staaten mit den wenigsten kumulierten Fällen
Wie aus dem Histogramm ersichtlich ist, sind die drei Staaten mit den meisten kumulierten Fällen die Nördlichen Marianen, die Jungferninseln und Alaska mit kumulierten Fällen von 689 bzw. 3028 bzw. 16291.

5. Fazit und Erfahrung

Durch die Verarbeitung und Analyse der Daten der neuen Kronenpneumonie-Epidemie in den Vereinigten Staaten wurden folgende Schlussfolgerungen und Erkenntnisse gezogen:
1. Die neue Kronenpneumonie-Epidemie in den Vereinigten Staaten wird sich Anfang 2021 rasch ausbreiten, insbesondere im Osten Küste. Doch im Sommer ließ der Ausbruch in einigen Bundesstaaten nach.
2. Das Ausmaß der Auswirkungen der Epidemie auf verschiedene Staaten ist sehr unterschiedlich, wobei einige Staaten deutlich höhere Sterberaten und Infektionsraten aufweisen als andere. Dies hängt mit Faktoren wie der Bevölkerungsdichte, dem Wirtschaftsniveau und den medizinischen Ressourcen jedes Staates zusammen.
3. Schutzmaßnahmen wie soziale Distanzierung und Masken können die Ausbreitung des Virus wirksam verlangsamen und die Sterblichkeits- und Infektionsrate senken.
4. Die rechtzeitige Überwachung und Frühwarnung von Epidemiedaten kann der Regierung und der Öffentlichkeit helfen, wirksamere Präventions- und Kontrollentscheidungen zu treffen. Gleichzeitig spielen Datenverarbeitungs- und Analysetechnologien eine immer wichtigere Rolle bei der Prävention und Bekämpfung von Epidemien.
Kurz gesagt, die Datenanalyse der neuen Kronenpneumonie-Epidemie in den Vereinigten Staaten kann uns nicht nur ein umfassenderes Verständnis der Ausbreitung der Epidemie im Land vermitteln, sondern auch Datenunterstützung und Leitlinien für die Prävention und Kontrolle von Epidemien bereitstellen kann praktische Fälle und technische Anwendungen im Bereich der Datenanalyse bereitstellen.
Ich habe folgende Punkte gelernt:
1. Datenbereinigung und Vorverarbeitung sind sehr wichtig. Vor der Datenanalyse müssen die Originaldaten bereinigt und vorverarbeitet werden, einschließlich der Entfernung fehlender Werte, doppelter Werte, Ausreißer usw., um genaue und zuverlässige Ergebnisse sicherzustellen.
2. Durch die Datenvisualisierung können Daten klarer dargestellt werden. Durch die Visualisierung der Daten und deren Darstellung in einem Diagramm können die Daten intuitiver dargestellt werden, die Beziehung und der Trend zwischen den Daten können ermittelt werden und es kann bei der weiteren Analyse und Argumentation hilfreich sein.
3. Auch die Wahl der Analysemethoden und -techniken ist sehr wichtig. Bei der Datenanalyse ist es notwendig, geeignete Analysemethoden und -techniken entsprechend den Eigenschaften der Daten und den Anforderungen des Problems auszuwählen, um genauere und aussagekräftigere Schlussfolgerungen zu erhalten.
Während des Experiments sind wir auf einige Schwierigkeiten gestoßen. Eines der Hauptprobleme besteht darin, dass der Umfang des Datensatzes relativ groß ist, was zu einer langen Zeit für die Datenverarbeitung und -berechnung führt, was sich auf die Genauigkeit der Ergebnisse und die Effizienz auswirkt Experiment.
Um dieses Problem zu lösen, nutzen wir die Spark-Technologie zur Datenverarbeitung und -analyse und nutzen ihre verteilten Rechenfunktionen, um die Rechenleistung zu beschleunigen und die Effizienz zu verbessern. Schließlich haben wir das Experiment erfolgreich abgeschlossen und aussagekräftige Ergebnisse erhalten.

Verweise

[1] Yang Weimin, Yao Yuhua, Liu Xianpeng. „Spark-basierte COVID-19-Datenanalyse und Visualisierung.“ Computer Application Research. 2020, Band 37, Ausgabe 12. [2] Lin Ziyu, Zheng Haishan, Lai Yongxuan. „
Spark Programming Basics (Python Edition) „[M]. Beijing: People's Posts and Telecommunications Press, 2020. [
3] Lin Ziyu. Principles and Applications of Big Data Technology [M]. Beijing: People's Posts and Telecommunications Press, 2017.
[ 4] https://blog.csdn.net/weixin_43385372/article/details/117608253

Wenn Sie Fragen zum Lernen haben, können Sie mich auf WeChat hinzufügen, um bmt1014 zu kommunizieren

Fügen Sie hier eine Bildbeschreibung ein

Acho que você gosta

Origin blog.csdn.net/weixin_48676558/article/details/130965274
Recomendado
Clasificación