天气与生死攸关。 天气科学和预测天气变化,不仅帮助我们了解环境及其不断变化的性质,例如全球暖化,而且还可积极推动各方采取策略,改善灾难应变准备、减轻经济和人命损失(*1)并增强公民的整体福祉。
透过这些任务及使命,天气和数据科学家都投入了大量精力,来收集气象统计领域的物理数据、实时数据和历史数据 (*2),我们尝试使用机器学习 (ML) ,来预测天气变化模式,以达到种种预防天灾的目的 (*6)。
数立方在2022年,因向大陆某市政府提供天气解决方案,而荣获卓越奖(*10)。按不同阶段,我们将在以下的内容及要点中,总结自身经验及参考数据,略述数据科学家的一些实际工作流程:
数据科学家在各阶段的角色是什么 ?
前期阶段—
- 确定应该衡量哪些天气情况,例如: 雨、雪、冰雹、洪水(*3、6)
- 清楚地识别天气特征、等级和它们的定义,例如:「中度」、「重度」、「严重」(*3)
- 确定最有可能受灾的地区,例如热带气旋下的海岸; 交通枢纽(*4); 农场干旱(*1)、气喘等健康问题(*4、6、7)、森林火灾(*7)
- 确定、预计受灾地区的范围(如地理空间面积的考虑),例如: 10公里/50公里(*4)
- 明确记录的时间间隔、分层,例如: 季节性、每月、每周、每小时 (*8)、以分钟为单位的循环性的数据(*多变量时间的序列)(*5, 6)
- 确定专注于收集哪些数据集(如天气的变化),例如:包括二氧化碳、北极海冰、山地冰川、海洋热、海平面、春雪、表面温度、入射阳光、湿度、空气质量(*1、4)
- 辨识/选择高强度的特征/变量,同时筛选、去掉哪些不相关的特征和变量(*2)
- 避免一开始建模就引入太多参数,从而减少预测误差(*8)
- 然后,明确标记、划分数据集,设定指针性类别 (*5)
- 部署足够的节点/传感器/浮标/气象气球/气压计/温度计/卫星,作为整体收集数据的网络,因为收集足够的数据,可提高模型精确度(*3、7、8)
准备阶段—
- 与先进的模型提供者联络,例如: AccuWeather、MetOffice、OpenWeatherMap、HARP、NOAA (*1、5)
- 参考国际最新的天气ML模型,例如: ECMWF、GFS、UM、WRF(*2、8、9)
- 将数据集汇入Python的Numpy / Geopandas,以帮助识别模式(*4)
- 参考第三方来源的数据集,例如: 如果缺失值或空值很大,则SSW Latest Events and Hinode Flare Catalo 可作为辅助数据来源 (*5)
行动阶段—
- 确保数据集高质量、有明确定义及一致性,以便下一步能更好地进行预测性建模(*5, 8)
- 检查变量是否真正具针对性 / 目标性 (*2)
- 检查数据集内容是否缺失或异常(*2)
- 指导机器学习,根据预测建模的要求,将目标集分类为(*离散)和回归(*连续)(*5)
- 来自卫星和传感器的辅助数据集,将有利于修补缺失值,以验证建模预测性(*5、8)
- 检查是否添加补充数据集,以改进模型建构 (*2)
- 检查大气的微小变化,因这些因素降低模型的可预测性(*3)
- 识别不断变化的天气因素,会使它们更具弹性、预测性,建模变得准确(*7)
- 应用人工神经网络 (*ANN) ,来帮助建立算法 (*8, 9)
- 使用常用基准模型测试,并比较数据集 (*2)
- 在比较时间参数时,确保它是采用横断面的或时间点的(*5)
- 分割大量数据集,来预测不同的天气结果及变化(*3)
- 找出无帮助的数据集 (*3)
- 撷取长期的天气数据,以追踪长期气候模式和它们当中的相联性(*1、4)
- 收集每天大量天气数据(*3)
- 与卫星影像进行比较,以辅助短期性预测或定向预测 (*7, 8),由此我们可以决定是否回头验证现有模型 (*6)
- 持续记录实时数据,有助于提高天气预报的准确性(*7)
- 将数据输入ML引擎,以训练数据群,从而建模
- 转换琐碎的数据为可视化的图象,如地图、图形和3D视觉效果图象
- 分析海量实时天气数据,发现趋势,得出结论,做出准确及时的天气预报,并进行各种预测(*1)
- 从视觉效果图象中,了解背后气象原理和变化规则,例如: 帮助外行人识别受严重气候影响的地区之间的任何风险
建立团队来提供协助 -
- 机器学习 (ML) 可以帮助改善实体接地模型。 借助物理模型和测量数据,数据科学家可以获得更准确的预测和结果,提炼出的独特见解(*6, 9)
- 考虑到天气变化是物理性现象,受到物理定律的限制,但机器学习则不然,极端情况下,模型可能会产生误差,并误导预测性建模(*3,8,9)
- 比较来自相同区域的邻近传感器及其数据集,以检测隐藏中的错误,从而最大限度地减少错误,并保持数据集的可靠性(*8)
- 组建杰出的专家团队,有助应对气象变化、数据问题和技术问题。并由他们产生的不同的专业意见,而提供落地的方案(*3、9)
- 提升团队对物理天气现象的理解,并深入了解定义和术语,达成共识,有利工作推进(*5)
- 与气象科学家合作,数据科学家必须决定和采用哪种取样方法(*),例如:结合下抽样或过度性抽样 (*5)
- 参考外部算法,例如反向传播算法、减少最小化目标变量的预测值和实际值之间的均方误差 (*MSE) (*8)
- 透过建立有效的结构和参数估计方法和算法,数据科学家能够准确预测各种天气模式,最大限度地减少错误,并增强预警系统的可靠性(*8)
- 天气和数据科学家必须定义建模的准确性的上下限,并达成一致共识和标准,以确保ML 模型有效,且能应用它于解决实际问题 (*8)
后期阶段 -
- 天气预报模型可以用数值来模拟天气过程,但无法十分准确地描述当中的物理性变化。当发现错误时,需要立即删除错误,以进行可靠的预测(*8)
- 要经常训练模型,以确保建模始终能准确捕捉天气趋势。
- 当消除模型中的高误差时,建议可以在稍后阶段,输入其他的变量,来测试建模的准确度(*8)
- 将自我模型与外国先进模型进行预测能力比较,例如:利用美国国家航空暨太空总署 (*NCAR) 的全球预报系统,与之进行比较 (*GFS)(*8、9)
- Enable ML to learn and adapt itself without manual programming, so that ML might be more able to identify patterns and generalize knowledge to make more accurate predictions while human is unseen those areas (*8)
- 专注于预测性建模的质量,而不只是着眼模型仪表板的分数 (*9)
- 继续问问题“我们基于机器学习的模型是否能产生物理上一致且具有气象意义的预测?” (*9)
- 按团队的专业见解及理据,向政府官员建议下一步行动、计划
- 不断获取天气数据,并争取数据提供者或资金的支持,因为我们建立预测性方案中,通常相当困难,且成本高昂
- 部署更多传感器,来持续收集数据,提高未来的数据集的数量和质量
参考资料:
- https://www.heavy.ai/blog/how-big-data-on-weather-patterns-can-help-us-respond-to-the-climate-crisis
- https://www.analyticsvidhya.com/blog/2023/07/machine-learning-models/
- https://theconversation.com/ai-and-machine-learning-are-improving-weather-forecasts-but-they-wont-replace-human-experts-182498
- https://www.analyticsinsight.net/7-ways-to-harness-the-power-of-a-weather-api-for-data-science/
- https://www.nature.com/articles/s41597-020-0548-x
- https://data-flair.training/blogs/data-science-for-weather-prediction/
- https://www.nobledesktop.com/classes-near-me/blog/data-analytics-for-weather-forecasting
- https://www.mdpi.com/2673-4931/26/1/49
- https://www.ecmwf.int/en/about/media-centre/science-blog/2023/rise-machine-learning-weather-forecasting
- https://www.datacube.hk/news/datacube-won-the-excellence-award-of-the-data-innovative-application-competition-by-weather-city-operation-and-management-solution-in-baiyun-guangzhou-2022/
数立方得奖项目新闻稿:
关于我们的机器学习能力 :
https://www.datacube.hk/aimanager/https://www.datacube.hk/aibook/
#Datacube #Big_data #data_management #weather_science #weather_forecast #predictive_weather_model #climate_change #machinelearning #government_sectors #disaster_prevention