(通讯员 吴越)近日,华体会app登录入口,华体会(中国)官方青年教师曹海龙博士(第一作者)在地球与环境科学领域Top期刊《Environmental Science and Technology》(自然指数NI期刊,5年IF:12.0)上发表研究论文《地质成因劣质地下水机器学习模型的可迁移性》(Transferability of Machine Learning Models for Geogenic Contaminated Groundwaters),揭示了机器学习在预测天然劣质地下水空间分布预测中的易被忽视的缺陷。
以高砷和高氟地下水为代表的地质成因劣质地下水(GCGs)在全球广泛分布,受影响人口数以亿计。近20年来,机器学习逐渐成为GCGs空间分布预测的有力工具。地下水系统是公认的数据匮乏的系统,存在大量无样本或少样本区域,为这些地区建立专属模型极具挑战性。被广泛接受的一个潜在的解决方案是将现有模型迁移到样本匮乏地区:(1)将多单元大尺度模型迁移至无样本子单元;(2)将单一单元模型迁移至无样本单元。理论分析和实际数据显示这种转移可能具有极大风险。
图1. 山西裂谷系统六大盆地和采样点的位置
山西裂谷系统(SRS)由6个断陷盆地构成,是典型的高氟地下水分布区。本研究以SRS为研究区,综合考虑建模方法、预测因子类型、数据规模、样本特征比、预测因子范围、数据告知和随机性等潜在的迁移性影响因素,探讨了高氟下水模型在SRS中的空间可迁移性。研究发现,预测因子类型和数据告知决定了模型可迁移性,常见的以表面参数为预测因子的模型不具有空间可迁移性。在对训练数据的非线性降维分析的基础上,研究提出表面预测因子-中间变量映射的空间依赖导致预测因子-中间变量-劣质组分浓度关系具有空间不可迁移性。上述发现对不同类型GCGs和不同环境特征区域不敏感。根据上述发现,研究给出了具体的建模实践建议。
图2. 总体研究方案
图3. 不同盆地数据的 t-SNE 低维特征。a 和 b 中的预测因子分别对应水化学参数和地表参数
研究成果将促进在预测GCGs中对机器学习的合理有效应用,启发针对GCGs数据特征的机器学习方法的开发,为地下水管理和保护提供可靠工具。
华体会app登录入口,华体会(中国)官方长期以来重视青年人才引进和培育,论文第一作者曹海龙博士为学院2023年引进的优秀博士,以第一作者在Environmental Science and Technology(2篇)、Journal of Hydrology(4篇)等Top期刊发表论文多篇。
本研究工作受到国家重点研发计划项目(2021YFA0715900)、国家自然科学基金(42020404005)、高等学校学科创新引智计划等的资助。(审核 肖品龙 徐耀辉)
论文链接:https://doi.org/10.1021/acs.est.4c01327