大科学中心数据团队在机器学习数据约简方向取得进展

发布时间:2023-10-11浏览次数:31

图片

图1: SFX实验示意图

SFX数据分析

重要进展 

图片

我校大科学中心数据团队在X射线自由电子激光的超大规模数据分析中取得进展,采用弱监督学习方法有效降低了机器学习模型对人工标签数据集的依赖性,大幅提升了串行飞秒晶体学衍射图案数据约简的模型通用性。该成果于9月20日以“Weakly supervised learning for pattern classification in serial femtosecond crystallography”为题,在学术期刊Optics Express上在线发表。


串行飞秒晶体学 (SFX) 是X射线自由电子激光 (XFEL) 装置的重要实验方法学,能够在常温条件下对微小尺寸晶体提供前所未有的结构探测能力。目前XFEL装置正朝着高脉冲频率、大像素探测器的方向发展,国际各大装置均在发展机器学习方法,以期实现高通量数据的在线筛选和约简,极大地降低数据量,提升科学发现的效率。但是目前能较好地应用于图像分类的算法都是监督型学习,需要非常高的时间成本和专业成本为大量的衍射图案标注人工标签。

图片

图2:SFX衍射图案的三种类型,a有信号;b可能有信号;c无信号

大科学中心研究人员利用弱监督学习来降低分类模型对人工标签数据集的依赖性,只利用1/6的标签数据量来训练模型,就得到了与完全监督模型相当的识别率。研究结果显示在同一个实验站使用同一种探测器采集到的SFX衍射图案具有某种相似的潜在特征,只需要对少数几个数据集进行全面的人工标注,采用基于迁移学习微调的模型和基于域对抗神经网络 (DANN) 训练的模型都有很高的识别率。


基于逐行分解(RWD)的特征变换方法,将衍射图像从二维降至一维,模型的推理速度提升了80多倍,在单块A100 GPU卡上的测试速度超过了1.1万张每秒,有助于实现模型在线化部署。与欧美科研人员发表的研究结果相比,基于RWD特征变换的模型在通用性方面表现出了显著的提高。SHINE建成后脉冲重复频率可高达1 MHz,SFX实验的超高数据通量(百GB每秒)和数据总量(PB级)给科学数据处理带来了巨大挑战,上述研究成果将在SFX实验数据的约简处理中发挥重要作用。

图3: 基于RWD方法将衍射图案降至一维后,三种图案的特征更容易被学习,所以只需要少量的标签即可训练,同时在不同实验的数据集上有更好的通用泛化能力

上海科技大学物质科学与技术学院2020级硕士研究生谢佳男和信息科学与技术学院2019级硕士研究生刘基为本论文的共同第一作者,大科学中心张晓峰副研究员为通讯作者。该论文也是上海科技大学公共选修课程“人工智能在科学与工程学的应用(CS286)”教学成果的一部分,充分体现了上科大创新课程体系与大科学装置研发的良好结合。该研究得到了硬X射线自由电子激光装置项目与中国科学院战略性先导专项的支持。

图片

论文链接

https://doi.org/10.1364/OE.492311


图片