澳大利亚太阳能发电量分析项目
一、项目简介
- 核心目标: 基于澳大利亚不同地区的用户屋顶光伏系统数据,构建预测模型,评估未来太阳能发电量。
- 数据规模: 使用 Python 对 10000+ 组用户数据进行全面分析(包含屋顶角度、容量、阴影情况等关键因子)。
- 技术与方法:数据清洗与特征工程:剔除或修正缺失值,新增屋顶方向等非线性特征;三种线性回归模型对比:含多元线性回归、带交互/二次项的回归模型等;最终选择均方误差(MSE)最优的模型做报告与可视化输出。
- 成果:建立了针对不同屋顶类型与光伏系统容量的预测模型,为政府与企业决策提供量化参考;报告较系统地展示了太阳能发电量在澳洲不同城市/纬度下的分布与趋势。
二、项目主要思路与流程
- 数据概览与清洗:原始数据包含 3000 ~ 10000 组家庭光伏发电历史记录、安装信息(如屋顶倾斜度、Azimuth、容量、阴影等),并补充城市纬度、楼层数、屋顶材质等。处理缺失值、异常值并进行适度特征转换(如将极值 Roof_Azimuth 映射到 [0,180) 区间,或添加二次项 squared_Roof_Azimuth 表征非线性影响)。
- 模型设计与对比:Model 1: 仅使用基础的数值特征(Panel_Capacity、Latitude、Roof_Azimuth)进行多元线性回归。Model 2: 在上述基础上,额外引入屋顶阴影(Shading_Partial / Shading_Significant 等虚拟变量),捕捉光照被遮挡的影响。Model 3: 除了阴影和基本数值特征外,还新增 squared_Roof_Azimuth,尝试捕捉 Azimuth 与发电量的二次关系。
- 模型选择与验证:采用训练集、验证集的方式(或交叉验证)对比三种模型在均方误差(MSE)指标上的表现。训练集误差: Model 3 MSE 最小,但在验证集中 Model 2 和 Model 3 表现都很接近;综合残差分布后,选择 Model 2 作为最终方案。最后与基准模型(Benchmark Model 1 & Model 2)对比,在独立测试集上,所选模型(Model 2)MSE 约 466720,比基准模型 500 万以上的 MSE 更优。
三、关键图表
- 各模型在训练/验证集上的 MSE 对比(报告原文 Table 引用)
训练集 MSE:
- Model 1: 2,194,053
- Model 2: 573,263
- Model 3: 573,257
验证集 MSE:
- Model 1: 2,055,056
- Model 2: 458,442
- Model 3: 458,508
由此可见 Model 3 在训练集稍优,但在验证集与 Model 2 几乎齐平。综合残差分析后,选用 Model 2。
- 残差分布与 Q-Q 图(报告原文示意)下图为三个模型的残差图及 Q-Q 图示例,可见 Model 2 和 Model 3 的残差更为随机分布,拟合较为合理。
Figure: 模型 2 Residual Plot Comparison
- 最终测试集与基准模型对比
Selected Model (2) | 466,720 |
Benchmark Model 1 | 5,792,108 |
Benchmark Model 2 | 5,675,016 |
该结果表明,模型 2 相比两个基准预测方法有明显误差优势,可较好捕捉到容量、纬度、屋顶阴影等特征与发电量的对应关系。
四、项目总结与收获
- 成就与价值:基于回归模型成功预测澳大利亚主要城市的屋顶光伏发电量,为居民或政府机构提供了数据支持;结果表明,加入阴影信息(Shading)及适度的非线性特征后,显著提升了预测精度;模型在真实测试集中表现稳定,具备拓展到其他地区的潜力。
- 局限与展望:数据集规模相对有限,仅覆盖澳大利亚部分城市,未来可拓展至其他地区;未纳入气象因素(如云层、温度等)的影响,后续可与气象数据结合,构建更完备的预测体系。