机器学习大作业--Python城市空气质量的分析与预测

需要完整项目源码和论文报告可以私信我
机器学习大作业–基于机器学习算法、KNN、SVM、LSTM、决策树、随机森林、线性回归分析对空气质量的分类、识别和预测:
本文针对江西省南昌市2022年空气质量问题，采用各种机器学习算法实现其分类、知识、预测等。文中采用了基于SVM的图像分类或归类、深度学习模型LSTM、决策树、随机森林和线性回归分析等方法，对南昌市空气质量进行了研究和预测，并综合分析了各种算法的优缺点和适用性，为南昌市及相关决策部门提供了有效的参考建议。
(可以自行改地区，通过爬虫源码爬取其他地区空气质量数据集）

所有可视化结果以aqi指数为x轴，当天aqi排名为y轴，颜色代表空气质量。green， yellow， orange，red， purple，black分别代表优，良，轻度污染，中度污染，重度污染，严重污染。

1.获取数据

1.1数据来源：
http://www.tianqihoubao.com/aqi/nanchang-202201.html
在这里插入图片描述
1.2爬虫源码：（完整源码见项目中：爬虫.py程序）

import pandas as pd
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
for page in range(1, 13):  # 12个月
    if page < 10:
        url = f'http://www.tianqihoubao.com/aqi/nanchang-20220{page}.html'
        df = pd.read_html(url, encoding='gbk')[0]
        if page == 1:
            df.to_csv('空气质量-nanchang_day.csv', mode='a+', index=False, header=False)
        else:
            df.iloc[1:, ::].to_csv('空气质量-nanchang_day.csv', mode='a+', index=False, header=False)
    else:
        url = f'http://www.tianqihoubao.com/aqi/nanchang-2022{page}.html'
        df = pd.read_html(url, encoding='gbk')[0]
        df.iloc[1:, ::].to_csv('空气质量-nanchang_day.csv', mode='a+', index=False, header=False)

    logging.info(f'{page}月空气质量数据下载完成！')

1.3爬取数据：（数据集见空气质量-nanchang_day.csv文件）
在这里插入图片描述
1.4数据预处理：（源码见test.py程序，处理后的数据见data.txt文件）

2.数据分析

2.1.2022年南昌市空气质量分析中质量等级,AQI指数,当天AQI排名,PM2.5,PM10,So2,No2,Co,O3全年走势图：
![在这里插入图片描述](https://img-blog.csdnimg.cn/51c03ad6e60f4692a759523244dcc55b.png

2.2.2022年南昌市空气质量分析中质量等级,AQI指数,当天AQI排名,PM2.5,PM10,So2,No2,Co,O3季度箱形图：

2.2.2022年南昌市空气质量分析中质量等级,AQI指数,当天AQI排名,PM2.5,PM10,So2,No2,Co,O3月均走势图：
在这里插入图片描述