澳大利亚太阳能发电量分析项目

一、项目简介

核心目标：基于澳大利亚不同地区的用户屋顶光伏系统数据，构建预测模型，评估未来太阳能发电量。
数据规模：使用 Python 对 10000+ 组用户数据进行全面分析（包含屋顶角度、容量、阴影情况等关键因子）。
技术与方法：数据清洗与特征工程：剔除或修正缺失值，新增屋顶方向等非线性特征；三种线性回归模型对比：含多元线性回归、带交互/二次项的回归模型等；最终选择均方误差（MSE）最优的模型做报告与可视化输出。
成果：建立了针对不同屋顶类型与光伏系统容量的预测模型，为政府与企业决策提供量化参考；报告较系统地展示了太阳能发电量在澳洲不同城市/纬度下的分布与趋势。

二、项目主要思路与流程

数据概览与清洗：原始数据包含 3000 ~ 10000 组家庭光伏发电历史记录、安装信息（如屋顶倾斜度、Azimuth、容量、阴影等），并补充城市纬度、楼层数、屋顶材质等。处理缺失值、异常值并进行适度特征转换（如将极值 Roof_Azimuth 映射到 [0,180) 区间，或添加二次项 squared_Roof_Azimuth 表征非线性影响）。
模型设计与对比：Model 1：仅使用基础的数值特征（Panel_Capacity、Latitude、Roof_Azimuth）进行多元线性回归。Model 2：在上述基础上，额外引入屋顶阴影（Shading_Partial / Shading_Significant 等虚拟变量），捕捉光照被遮挡的影响。Model 3：除了阴影和基本数值特征外，还新增 squared_Roof_Azimuth，尝试捕捉 Azimuth 与发电量的二次关系。
模型选择与验证：采用训练集、验证集的方式（或交叉验证）对比三种模型在均方误差（MSE）指标上的表现。训练集误差： Model 3 MSE 最小，但在验证集中 Model 2 和 Model 3 表现都很接近；综合残差分布后，选择 Model 2 作为最终方案。最后与基准模型（Benchmark Model 1 & Model 2）对比，在独立测试集上，所选模型（Model 2）MSE 约 466720，比基准模型 500 万以上的 MSE 更优。

三、关键图表

各模型在训练/验证集上的 MSE 对比（报告原文 Table 引用）

训练集 MSE：
Model 1: 2,194,053
Model 2: 573,263
Model 3: 573,257
验证集 MSE：
Model 1: 2,055,056
Model 2: 458,442
Model 3: 458,508
由此可见 Model 3 在训练集稍优，但在验证集与 Model 2 几乎齐平。综合残差分析后，选用 Model 2。

残差分布与 Q-Q 图（报告原文示意）下图为三个模型的残差图及 Q-Q 图示例，可见 Model 2 和 Model 3 的残差更为随机分布，拟合较为合理。

Figure: 模型 2 Residual Plot Comparison

最终测试集与基准模型对比

Selected Model (2)	466,720
Benchmark Model 1	5,792,108
Benchmark Model 2	5,675,016

该结果表明，模型 2 相比两个基准预测方法有明显误差优势，可较好捕捉到容量、纬度、屋顶阴影等特征与发电量的对应关系。

四、项目总结与收获

成就与价值：基于回归模型成功预测澳大利亚主要城市的屋顶光伏发电量，为居民或政府机构提供了数据支持；结果表明，加入阴影信息（Shading）及适度的非线性特征后，显著提升了预测精度；模型在真实测试集中表现稳定，具备拓展到其他地区的潜力。
局限与展望：数据集规模相对有限，仅覆盖澳大利亚部分城市，未来可拓展至其他地区；未纳入气象因素（如云层、温度等）的影响，后续可与气象数据结合，构建更完备的预测体系。