歡迎訪問柒鑫彩票官方網站 English
  • 時間 2021-06-10
当前所在位置 : 首頁 > 新聞動態 > 科技動態
新聞動態
> 2013年以前的PM2.5數據缺失怎麽辦?機器學習算出來

自2013年起,生态环境部建立了地基监测站点,开始对细颗粒物(PM2.5)污染进行业务观测。但是,此前的历史数据难以获取,导致长序列PM2.5数据缺失,为认识中国PM2.5长期变化带来了挑战。为解决这一问题,柒鑫彩票张小曳团队基于国家级地面气象观测网,抽取空间特征并结合先进的机器学习技术LightGBM,构建了考虑空间气象效应的高性能机器学习模型,能够获取1960年代以来的长序列PM2.5历史数据集。该数据集将对理解气溶胶长期变化趋势、环境和气候影响以及通过同化到化学-天气耦合模型中构建长期再分析数据具有重要价值。

目前,已经存在基于卫星气溶胶光学厚度(AOD)来估算PM2.5的方法,但卫星数据中存在大量缺失值、采样频率低且整体预测能力不高,估算结果在很大程度上受到了影响。与卫星数据相比,地面气象观测具有序列時間长、時間分辨率高、数据完整性好等优势。在我国,中国气象局的国家级气象观测网始建于20世纪50年代,能够连续观测逐小时的温、压、风、湿等气象数据。1960年后国家级观测站数量超过2000个,而后稳定在2450个左右,此外,还有超过6万个区域观测站。因此,如果能够利用这些地面气象数据来估算我国的历史PM2.5数据,可能会取得更好的效果。研究人员将超过三千万条的2016-2018年逐小时数据用于模型训练,并将超过一千万条的2019年数据用于模型评估。

 

????图1.?(a)全国1440个PM2.5国控站和2450个国家级气象观测站的空间分布; (b)空间特征提取和模型构建的概念模型。

模型效果:優于已有模型

研究人员使用十折交叉验证方法,验证了这个模型的准确性。同时,还将交叉验证的评分与其他模型进行了比较。该模型从日到年尺度都优于其他模型,其小时尺度R2(0.80)甚至优于其他大多数模型日尺度R2(0.41~0.85)。不同模型的验证性能和预测能力比较统计为了检验模型的预测能力,研究人员将模型预测的2019年PM2.5数值和观测的实际数值进行了比较。结果表明,在小时(R2=0.75)、日(R2=0.84)、月(R2=0.88)年(R2=0.87)時間尺度上,该模型都能够以前所未有的预测能力准确估算PM2.5质量浓度。与上表中的其他模型相比,该文的模型不仅可以对PM2.5进行逐小时预测,在日、月、年尺度的预测能力上也都展示出相当大的优势,而这些优势主要来自于空间气象效应的引入。

?????图2.?2019年观测的PM2.5和预测的PM2.5在(a)小时、(b)日、(c)月和(d)年時間尺度上的密度散点图(颜色为概率分布密度)。

上述成果发表于《国家科学评论》(National Science Review,NSR)柒鑫彩票博士研究生仲峻霆为该论文第一作者,中国气象科学院张小曳院士和桂柯博士为共同通讯作者,合作作者还包括王亚强研究員、车慧正研究員、孙俊英研究員、张养梅研究員、沈小静博士、张磊博士和博士研究生张文杰。