澳大利亚太阳能发电量分析项目

一、项目简介

  • 核心目标: 基于澳大利亚不同地区的用户屋顶光伏系统数据,构建预测模型,评估未来太阳能发电量。
  • 数据规模: 使用 Python 对 10000+ 组用户数据进行全面分析(包含屋顶角度、容量、阴影情况等关键因子)。
  • 技术与方法:数据清洗与特征工程:剔除或修正缺失值,新增屋顶方向等非线性特征;三种线性回归模型对比:含多元线性回归、带交互/二次项的回归模型等;最终选择均方误差(MSE)最优的模型做报告与可视化输出。
  • 成果:建立了针对不同屋顶类型与光伏系统容量的预测模型,为政府与企业决策提供量化参考;报告较系统地展示了太阳能发电量在澳洲不同城市/纬度下的分布与趋势。

二、项目主要思路与流程

  1. 数据概览与清洗:原始数据包含 3000 ~ 10000 组家庭光伏发电历史记录、安装信息(如屋顶倾斜度、Azimuth、容量、阴影等),并补充城市纬度、楼层数、屋顶材质等。处理缺失值、异常值并进行适度特征转换(如将极值 Roof_Azimuth 映射到 [0,180) 区间,或添加二次项 squared_Roof_Azimuth 表征非线性影响)。
  2. 模型设计与对比:Model 1: 仅使用基础的数值特征(Panel_Capacity、Latitude、Roof_Azimuth)进行多元线性回归。Model 2: 在上述基础上,额外引入屋顶阴影(Shading_Partial / Shading_Significant 等虚拟变量),捕捉光照被遮挡的影响。Model 3: 除了阴影和基本数值特征外,还新增 squared_Roof_Azimuth,尝试捕捉 Azimuth 与发电量的二次关系。
  3. 模型选择与验证:采用训练集、验证集的方式(或交叉验证)对比三种模型在均方误差(MSE)指标上的表现。训练集误差: Model 3 MSE 最小,但在验证集中 Model 2 和 Model 3 表现都很接近;综合残差分布后,选择 Model 2 作为最终方案。最后与基准模型(Benchmark Model 1 & Model 2)对比,在独立测试集上,所选模型(Model 2)MSE 约 466720,比基准模型 500 万以上的 MSE 更优。

三、关键图表

  1. 各模型在训练/验证集上的 MSE 对比(报告原文 Table 引用)

训练集 MSE:

  • Model 1: 2,194,053
  • Model 2: 573,263
  • Model 3: 573,257

验证集 MSE:

  • Model 1: 2,055,056
  • Model 2: 458,442
  • Model 3: 458,508

由此可见 Model 3 在训练集稍优,但在验证集与 Model 2 几乎齐平。综合残差分析后,选用 Model 2

  1. 残差分布与 Q-Q 图(报告原文示意)下图为三个模型的残差图及 Q-Q 图示例,可见 Model 2 和 Model 3 的残差更为随机分布,拟合较为合理。

Figure: 模型 2 Residual Plot Comparison

  1. 最终测试集与基准模型对比

Selected Model (2)

466,720

Benchmark Model 1

5,792,108

Benchmark Model 2

5,675,016

该结果表明,模型 2 相比两个基准预测方法有明显误差优势,可较好捕捉到容量、纬度、屋顶阴影等特征与发电量的对应关系。

四、项目总结与收获

  1. 成就与价值:基于回归模型成功预测澳大利亚主要城市的屋顶光伏发电量,为居民或政府机构提供了数据支持;结果表明,加入阴影信息(Shading)及适度的非线性特征后,显著提升了预测精度;模型在真实测试集中表现稳定,具备拓展到其他地区的潜力。
  2. 局限与展望:数据集规模相对有限,仅覆盖澳大利亚部分城市,未来可拓展至其他地区;未纳入气象因素(如云层、温度等)的影响,后续可与气象数据结合,构建更完备的预测体系。
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务