天氣與生死攸關。 天氣科學和預測天氣變化,不僅幫助我們了解環境及其不斷變化的性質,例如全球暖化,而且還可積極推動各方採取策略,改善災難應變準備、減輕經濟和人命損失(*1)並增強公民的整體福祉。
透過這些任務及使命,天氣和數據科學家都投入了大量精力,來收集氣象統計領域的物理數據、即時數據和歷史數據 (*2),我們嘗試使用機器學習 (ML) ,來預測天氣變化模式,以達到種種預防天災的目的 (*6)。
數立方在2022年,因向大陸某市政府提供天氣解決方案,而榮獲卓越獎(*10)。按不同階段,我們將在以下的內容及要點中,總結自身經驗及參考資料,略述數據科學家的一些實際工作流程:
數據科學家在各階段的角色是什麼 ?
前期階段—
- 確定應該衡量哪些天氣情況,例如: 雨、雪、冰雹、洪水(*3、6)
- 清楚地識別天氣特徵、等級和它們的定義,例如:「中度」、「重度」、「嚴重」(*3)
- 確定最有可能受災的地區,例如熱帶氣旋下的海岸; 交通樞紐(*4); 農場乾旱(*1)、氣喘等健康問題(*4、6、7)、森林火災(*7)
- 確定、預計受災地區的範圍(如地理空間面積的考量),例如: 10公里/50公里(*4)
- 明確記錄的時間間隔、分層,例如: 季節性、每月、每週、每小時 (*8)、以分鐘為單位的循環性的數據(*多變量時間的序列)(*5, 6)
- 確定專注於收集哪些數據集(如天氣的變化),例如:包括二氧化碳、北極海冰、山地冰川、海洋熱、海平面、春雪、表面溫度、入射陽光、濕度、空氣品質(*1、4)
- 辨識/選擇高強度的特徵/變量,同時篩選、去掉哪些不相關的特徵和變量(*2)
- 避免一開始建模就引入太多參數,從而減少預測誤差(*8)
- 然後,明確標記、劃分數據集,設定指標性類別 (*5)
- 部署足夠的節點/感測器/浮標/氣象氣球/氣壓計/溫度計/衛星,作為整體收集數據的網絡,因為收集足夠的數據,可提高模型精確度(*3、7、8)
準備階段—
- 與先進的模型提供者聯絡,例如: AccuWeather、MetOffice、OpenWeatherMap、HARP、NOAA (*1、5)
- 參考國際最新的天氣ML模型,例如: ECMWF、GFS、UM、WRF(*2、8、9)
- 將數據集匯入Python的Numpy / Geopandas,以幫助識別模式(*4)
- 參考第三方來源的數據集,例如: 如果缺失值或空值很大,則SSW Latest Events and Hinode Flare Catalo 可作為輔助數據來源 (*5)
行動階段—
- 確保數據集高質量、有明確定義及一致性,以便下一步能更好地進行預測性建模(*5, 8)
- 檢查變數是否真正具針對性 / 目標性 (*2)
- 檢查數據集內容是否缺失或異常(*2)
- 指導機器學習,根據預測建模的要求,將目標集分類為(*離散)和迴歸(*連續)(*5)
- 來自衛星和感測器的輔助數據集,將有利於修補缺失值,以驗證建模預測性(*5、8)
- 檢查是否添加補充數據集,以改進模型建構 (*2)
- 檢查大氣的微小變化,因這些因素降低模型的可預測性(*3)
- 識別不斷變化的天氣因素,會使它們更具彈性、預測性,建模變得準確(*7)
- 應用人工神經網路 (*ANN) ,來幫助建立演算法 (*8, 9)
- 使用常用基準模型測試,並比較數據集 (*2)
- 在比較時間參數時,確保它是採用橫斷面的或時間點的(*5)
- 分割大量數據集,來預測不同的天氣結果及變化(*3)
- 找出無幫助的數據集 (*3)
- 擷取長期的天氣數據,以追蹤長期氣候模式和它們當中的相聯性(*1、4)
- 收集每天大量天氣數據(*3)
- 與衛星影像進行比較,以輔助短期性預測或定向預測 (*7, 8),由此我們可以決定是否回頭驗證現有模型 (*6)
- 持續記錄即時數據,有助於提高天氣預報的準確性(*7)
- 將數據輸入ML引擎,以訓練數據群,從而建模
- 轉換瑣碎的數據為視覺化的圖象,如地圖、圖形和3D視覺效果圖象
- 分析海量即時天氣數據,發現趨勢,得出結論,做出準確及時的天氣預報,並進行各種預測(*1)
- 從視覺效果圖象中,了解背後氣象原理和變化規則,例如: 幫助外行人識別受嚴重氣候影響的地區之間的任何風險
建立團隊來提供協助 -
- 機器學習 (ML) 可以幫助改善實體接地模型。 借助物理模型和測量數據,數據科學家可以獲得更準確的預測和結果,提煉出的獨特見解(*6, 9)
- 考慮到天氣變化是物理性現象,受到物理定律的限制,但機器學習則不然,極端情況下,模型可能會產生誤差,並誤導預測性建模(*3,8,9)
- 比較來自相同區域的鄰近感測器及其數據集,以檢測隱藏中的錯誤,從而最大限度地減少錯誤,並保持數據集的可靠性(*8)
- 組建傑出的專家團隊,有助應對氣象變化、數據問題和技術問題。並由他們產生的不同的專業意見,而提供落地的方案(*3、9)
- 提升團隊對物理天氣現象的理解,並深入了解定義和術語,達成共識,有利工作推進(*5)
- 與氣象科學家合作,數據科學家必須決定和採用哪種取樣方法(*),例如:結合下抽樣或過度性抽樣 (*5)
- 參考外部演算法,例如反向傳播演算法、減少最小化目標變數的預測值和實際值之間的均方誤差 (*MSE) (*8)
- 透過建立有效的結構和參數估計方法和演算法,數據科學家能夠準確預測各種天氣模式,最大限度地減少錯誤,並增強預警系統的可靠性(*8)
- 天氣和數據科學家必須定義建模的準確性的上下限,並達成一致共識和標準,以確保ML 模型有效,且能應用它於解決實際問題 (*8)
後期階段 -
- 天氣預報模型可以用數值來模擬天氣過程,但無法十分準確地描述當中的物理性變化。當發現錯誤時,需要立即刪除錯誤,以進行可靠的預測(*8)
- 要經常訓練模型,以確保建模始終能準確捕捉天氣趨勢。
- 當消除模型中的高誤差時,建議可以在稍後階段,輸入其他的變數,來測試建模的準確度(*8)
- 將自我模型與外國先進模型進行預測能力比較,例如:利用美國國家航空暨太空總署 (*NCAR) 的全球預報系統,與之進行比較 (*GFS)(*8、9)
- 不需人手手動編程,驅動ML - 令機器學習能夠不受規範地自我學習和適應,從而使ML能夠更好地識別模式,並提煉當中的知慧,從而察覺人類看不到盲點,做出更準確的預測。不需人手手动编程,驱动ML - 令机器学习能够不受规范地自我学习和适应,从而使ML能够更好地识别模式,并提炼当中的知慧,从而察觉人类看不到盲点,做出更准确的预测。
- 專注於預測性建模的品質,而不只是著眼模型儀表板的分數 (*9)
- 繼續問問題“我們基於機器學習的模型是否能產生物理上一致且具有氣象意義的預測?” (*9)
- 按團隊的專業見解及理據,向政府官員建議下一步行動、計劃
- 不斷獲取天氣數據,並爭取數據提供者或資金的支持,因為我們建立預測性方案中,通常相當困難,且成本高昂
- 部署更多感測器,來持續收集數據,提高未來的數據集的數量和質量
參考資料*:
- https://www.heavy.ai/blog/how-big-data-on-weather-patterns-can-help-us-respond-to-the-climate-crisis
- https://www.analyticsvidhya.com/blog/2023/07/machine-learning-models/
- https://theconversation.com/ai-and-machine-learning-are-improving-weather-forecasts-but-they-wont-replace-human-experts-182498
- https://www.analyticsinsight.net/7-ways-to-harness-the-power-of-a-weather-api-for-data-science/
- https://www.nature.com/articles/s41597-020-0548-x
- https://data-flair.training/blogs/data-science-for-weather-prediction/
- https://www.nobledesktop.com/classes-near-me/blog/data-analytics-for-weather-forecasting
- https://www.mdpi.com/2673-4931/26/1/49
- https://www.ecmwf.int/en/about/media-centre/science-blog/2023/rise-machine-learning-weather-forecasting
- https://www.datacube.hk/news/datacube-won-the-excellence-award-of-the-data-innovative-application-competition-by-weather-city-operation-and-management-solution-in-baiyun-guangzhou-2022/
數立方得獎項目新聞稿:
關於我們的機器學習能力 :
https://www.datacube.hk/aimanager/https://www.datacube.hk/aibook/
#Datacube #Big_data #data_management #weather_science #weather_forecast #predictive_weather_model #climate_change #machinelearning #government_sectors #disaster_prevention