随着集成电路产业的快速发展,针对晶圆的需求日益增多,快速提高晶圆的生产效率和质量成为重要研究方向[1]。晶圆制造过程工艺复杂、工期较长、质量精度要求较高,任何一道工序异常都会导致最终产品产生缺陷[2]。目前最常用的晶圆异常检测方法是在晶圆制造完成后对其进行电性测试,然而电性测试的成本高、耗时长,同时检测过程也可能对晶圆产生损耗,一定程度上影响产品投入、生产质量和效率。利用在晶圆制造过程中设备及传感器所产生的数据对晶圆进行异常检测,可以有效避免电性测试存在的问题,所以研究晶圆制造数据的异常检测具有重要意义[3]。晶圆制造数据包括晶圆制造过程中晶体生长、整形、切片、默片倒角、刻蚀、抛光、清洗、检查包装等环节的设备及传感器所产生的参数。这些参数涵盖机械加工、化学处理、表面抛光和质量测量各方面,具有高维特点,其含有的大量冗余特征使异常检测难度加大[4]。因此,要实现晶圆制造数据异常检测,就必须从高维特征中准确提取出异常特征并实现快速检测分类。
目前,国内外对晶圆制造数据进行了广泛的研究,主流的晶圆制造数据异常检测方法以数据挖掘和统计分析的分类方法为主。传统的晶圆制造数据检测方法主要由特征提取和分类算法两部分构成。晶圆制造数据特征提取主要以降维方法为主,按照特征保持的准则可分为全局特征保持和局部特征保持两类[5],前者反映数据的总体特点,后者反映数据的内部属性。全局特征保持的方法主要有核主成分分析(kernel principal component analysis,KPCA)[6]、独立元分析[7]和人工神经网络[8]等;局部特征保持的方法主要有等距特征映射法(ISO metric feature mapping,ISO MAP)[9]、局部保持投影算法(locality preserving projections,LPP)[10]、局部线性嵌入算法(locally linear embedding, LLE)[11]。分类算法部分,支持向量机(support vector machine,SVM)、集成学习(ensemble learning)、K-近邻(K-nearest neighbor, KNN)被广泛应用于高维数据的异常分类领域[12]。
传统的晶圆制造数据异常检测过程中,在特征提取上,以KPCA为主的全局特征保持方法能有效实现全局特征的提取,对局部的信息提取效果比较差,以LPP为主的局部特征保持的方法提取数据的全局特征效果较差[13]。分类算法中,SVM和KNN存在时间复杂度高的问题,集成学习方法存在对异常特征不敏感的问题[14],传统的晶圆制造数据异常检测方法运算量大且无法满足更加复杂的制造工艺和实时性要求。近年来,深度学习[15]为晶圆制造数据异常检测提供了新的解决思路。王勇等[16]提出了一种基于深度神经网络的网络流量分类方法,将高维网络流量数据转化成灰度图片,实现了良好的分类效果。孙萍等[17]提出了一种基于注意力机制的图像目标检测方法,利用对特征区域添加注意力的方式有效实现了特征降维。王培森等[18]提出了一种基于多通道注意力的细粒度图像分类方法,实现了细小差别图片的精确分类。杨燕等[19]提出了一种基于注意力选择的局部特征匹配方法,有效提高了特征提取的效率和精度。但是深度学习中的注意力机制主要应用在图像特征提取方面,在高维数据特征提取方面的应用尚未见公开报道。
针对晶圆制造数据异常检测过程中难以提取异常特征和时间复杂度高的问题,本文提出了一种基于误差注意力的晶圆制造数据异常检测方法。图像处理的注意力机制是对人类注意力的模仿,通过修改图片学习的注意力能从图片大量的像素信息中获取当前任务的关键信息[20]。误差注意力是指以训练集中正常样本的均值为标准,根据训练样本与标准值的相对误差是否超过阈值来生成注意力参数。本文根据保持数据分布将晶圆制造数据转化成灰度图像;逐像素对比正常数据均值,判断相对误差是否超过阈值生成注意力参数;将其结合到灰度图像当中形成注意力图,利用卷积神经网络训练注意力图实现异常检测。
传统晶圆制造数据异常检测方法主要流程框架如图1所示。
图1 传统晶圆制造数据异常检测方法框架
Fig.1 Traditional wafer manufacturing data
anomaly detection method framework
基于误差注意力的晶圆制造数据异常检测方法主体框架如图2所示,主要包括以下3个步骤:
(1)特征保持的数据图像化。为了消除晶圆制造数据特征之间的量纲关系及极端值的影响,将晶圆制造数据保留其分布特征进行归一化处理后映射到[0,255]的灰度空间,形成灰度图片。
(2)误差注意力。以正常晶圆的均值为标准,根据训练样本与标准值的相对误差是否超过阈值形成基于位置的注意力参数,注意力参数与灰度图片结合得到注意力特征图。
(3)异常检测。针对传统的深度学习神经网络LeNet-5[21]模型对应不同场景下的晶圆制造数据集进行调整,模型共分7层,分别是输入层、卷积层、池化层、卷积层、池化层、全连接层和输出层,将施加注意力的特征图放入模型训练后,利用训练好的模型进行分类。
图2 晶圆制造数据异常检测总体框架
Fig.2 Wafer manufacturing data anomaly
detection overall framework
为消除晶圆制造数据之间的量纲关系,增加不同特征的可比性,需要对数据中的每个特征进行归一化处理,具体操作过程如下。假设数据集可表示为n行m列矩阵:
(1)
按照特征可将矩阵表示成为
(2)
其中,Bi表示第i个特征的所有数据,晶圆制造数据每个特征的所有数据一般服从正态分布,则第i(常量)个特征的归一化的过程可表示为
(3)
(4)
yni=(Ani-μi)/σi
(5)
其中,μi表示第i个特征的平均值;表示第i个特征的分布方差;yni表示第i个特征的第n个数据归一化结果,此时yni~N(0,1)。为排除数据中的极端值影响,同时防止图像化空间过于集中,采用yni中3σ以内数据作归一化处理,在其外的数据作为边缘数据作填充处理,其表达式如下:
(6)
(a)原始数据
(b)图像化后数据
图3 数据图像化前后分布情况对比
Fig.3 Comparison of distribution before and
after data imaging
ynio表示yni转化成灰度值的结果。为便于后续模型的训练,所生成图片长度和宽度相同。图3所示为晶圆异常分类数据集某特征图像化前后的数据分布情况,由图3可知原始数据的分布特征在图像化后得以保留,一定程度上避免了极端值对数据转化成的影响,图3a中前两个样本值偏大视为极端值。图4所示为晶圆制造数据[22]正常样本与异常样本图像化之后的效果。
(a)正常晶圆 (b)异常晶圆
图4 正常晶圆与异常晶圆图片效果比较
Fig.4 Comparison of normal wafer and abnormal
wafer images
注意力机制按照作用的形式可以分为基于项(item-wise)的注意力和基于位置(location-wise)的注意力,注意力机制以本身的形式可以分为软性注意力和硬性注意力[23-25]。对于晶圆制造数据异常检测,需要略去相对冗余的特征,保留可能会导致样本区别于正常类的特征。晶圆制造数据异常检测中特征提取采用基于位置的软性注意力机制,输入的特征信息可表示为
Xj∶k=[[x11 … x1k] [x21 … x2k] …
[xj1 … xjk]]
(7)
j,k∈(1,2,…,N)
其中,j、k分别表示输入特征的位置信息,Xj∶k表示转化成图片后每个像素的信息。采用软性注意力的情况下用概率表示每一个像素信息输入的可能性,用注意力权重Aj∶k表示,其产生过程为
(8)
其中,A表示误差的阈值,可以根据样本进行调整。Yjk表示Xj∶k在转化成图片像素前所对应的值,表示该特征在所有正常样本的平均值。
注意力输出的特征为Mj∶k,该特征综合考虑了每个样本的误差的影响,其产生过程为
(9)
如图5所示,在施加注意力之后,大部分与均值相差不明显的正常特征被注意力隐藏,小部分与均值有明显偏差的特征被注意力保留。
(a)施加注意力前 (b)施加注意力后
图5 施加注意力前后对比
Fig.5 Before and after exerting attention
分类检测旨在实现对注意力特征图的分类。LeNet-5模型是卷积神经网络早期具有代表性的模型,最初针对手写数字的识别设计,该模型对小尺寸图片具有良好分类效果。模型总共包含7层,分别是输入层、卷积层、池化层、卷积层、池化层、全连接层和输出层。针对传统的LeNet-5模型对应不同场景下的晶圆制造数据集进行调整,将施加注意力的特征图放入模型训练测试,随后利用训练得到的模型对测试数据集进行分类。通过的晶圆制造异常检测数据集对LeNet-5模型作以下调整:
(1)针对不同的晶圆制造数据分析得到合适大小的灰度图片,本文晶圆制造数据集输入为24×24矩阵。
(2)由于输入图像样本偏小,为了防止图像边缘的数据丢失,当前层的矩阵都会在边界加入全0填充,使得卷积前后的图像尺寸相同,本文中的卷积核的移动步长为1,激活函数为Relu函数,其模型如图6所示。Relu函数表达式为
f(x)=max(0,x)
(10)
图6 异常检测集采用的卷积网络结构
Fig.6 Convolutional network structure used by
anomaly detection set
本文实验采用晶圆制造数据集,该数据集包含1567个样本、590个特征和标签。为了防止训练过程中异常数据样本偏少导致训练偏差,对晶圆制造数据样本采用SMOTE+ENN的方法进行平衡化处理。SMOTE+ENN是过采样和欠采样的组合,过采样算法SOMTE在近邻异常样本之间进行线性插值来人工合成新的异常样本,欠采样代表算法ENN的基本思想是,若样本的3个最近邻样本中两个或以上的样本类别和它不一致,则删除该样本。处理后的样本分布情况见表1。实验采用平衡化处理后数据中的前1000个正常数据和前1000个异常数据作为训练集,测试集为正常样本中后463个样本和异常样本中后37个样本,总共测试样本个数为500,保证测试样本接近实际分布。
表1 数据过采样前后分布
Tab.1 Data before and after oversampling
数据类型原始数据调整后数据正常样本1 4631 463异常样本1041463比例14∶11∶1
本文的实验环境参数如下:硬件环境,Inspiron 14 7000;操作系统,Windows 10,64位;处理器,Intel(R) Core(TM) i7-7700HQ 2.80GHz;内存,16GB DDR4 2400 MHz;Tensorflow,1.4.0版本。实验结果的评价指标主要有以下两个部分:①在已训练好的神经网络模型上异常检测耗费的时间;②异常检测的召回率和精确率的综合指标F2-Score,基于混淆矩阵得出。综合考虑精确率P和召回率R,有
其中,TP指实际正类样本被正确预测的样本数;FN指实际正类样本被预测成负类的样本数;FP指实际负类样本被预测成正类的样本数。F2-Score更加侧重于异常检测中召回率的比例,防止正常样本被误判。
本文设计了6种不同的卷集层参数的卷积神经网络,分别采用最大池化和平均池化性能进行对比,得出较好的网络结构参数,其参数见表2。6种不同网络采用测试集数据测试,测试时间为数据转化成图像至异常检测完成的时间,实验采用的注意力阈值A为0.4,其实验结果见表3。
实验结果显示,采用施加注意力的特征图在网络中学习时,采用最大池化时,组号1的模型会陷入过拟合的状态,对特征的识别效果差。对比两种池化的方法,在注意力特征图的识别上,最大池化会导致信息丢失的现象比较严重,导致分类的精度变低;采用平均池化的条件下,数据中的异常信息容易得到保留,对异常信息的整体提取效果较好。组号为6的模型在评价指标上比较优秀,故采用平均池化条件下组号为6的模型参数。
由于不同的注意力阈值A对异常特征的提取程度不同,故设计不同的注意力阈值的对照实验,实验结果如图7所示。实验结果表明,在不同的注意力阈值的情况下,对局部异常信息提取力度不一,阈值太大则所提取的异常特征少,导致异常检测区分不明显,阈值太小则所提取的异常特征数量太多,干扰异常检测效果,由实验可知当阈值为0.4时,实验取得较好的效果。综上,晶圆制造数据集异常检测采用最优模型,其参数为阈值A为0.4,分类采用平均池化,详细参数可参考表2中的6组网络参数。
表2 6种不同结构参数的卷积神经网络
Tab.2 Convolutional neural networks with 6 different structural parameters
组号C1卷积层S2池化层C3卷积层S4池化层C5全连接层卷积核输出池化输出卷积核输出池化输出卷积核输出132×(3×3)32×(24×24)3×332×(8×8)64×(5×5)64×(8×8)2×264×(4×4)256×(4×4)256×1232×(3×3)32×(24×24)3×332×(8×8)64×(5×5)64×(8×8)2×264×(4×4)128×(4×4)128×1316×(3×3)16×(24×24)3×316×(8×8)32×(5×5)32×(8×8)2×232×(4×4)256×(4×4)256×1416×(3×3)16×(24×24)3×316×(8×8)32×(5×5)32×(8×8)2×232×(4×4)128×(4×4)128×158×(3×3)8×(24×24)3×38×(8×8)16×(5×5)16×(8×8)2×216×(4×4)256×(4×4)256×168×(3×3)8×(24×24)3×38×(8×8)16×(5×5)16×(8×8)2×216×(4×4)128×(4×4)128×1
表3 不同网络参数的实验结果
Tab.3 Experimental results of different network parametersstructural parameters
组号最大池化平均池化F2-Score(%)时间(s)F2-Score(%)时间(s)179.728.2382.728.97288.727.5189.227.98389.322.1590.021.57488.021.2091.220.89589.716.3992.216.23688.116.2493.516.20
图7 不同的注意力阈值A异常检测结果
Fig.7 Different attention threshold A abnormal
detection results
本文采用对照实验的方法,组合多种传统特征提取和分类算法与本文方法进行比较。其中对照组统一将数据进行过采样处理,特征提取晶圆制造数据异常检测时间为特征提取和异常检测时间的总和。实验中的实验组和对照组模型均已调至最优网络参数,其分类效果见表4。
由表4可知,误差注意力方法比传统最优的异常检测方法的准确率高3%,传统异常检测方法更加重视晶圆制造数据维度的降低,其中的全局特性(如异常特征的位置)和局部特性(如异常值的范围)难以兼顾;误差注意力方法比最优的传统检测方法耗时减少160%;由于采用卷积神经网络,误差注意力方法的时间复杂度明显优于SVM。同时,对异常信息的敏感程度方面,误差注意力方法也优于集成学习方法。实验结果证明,误差注意力机制能有效提取晶圆制造数据局部异常特征,卷积神经网络能实现晶圆制造数据异常特征的全局信息的提取,检测的时间复杂度较低,容易满足更加复杂的场景和实时性的需要。
表4 不同方法异常检测效果
Tab.4 Different methods of abnormal detection
数据集F2-Score(%)分类时间(s)KPCA+SVM82.3103.70LPP+SVM90.594.36KPCA+集成学习79.550.34LPP+集成学习82.543.53误差注意力+卷积网络93.516.20
为区别传统方法,本文方法采用卷积神经网络和注意力机制,有以下两点改进:利用注意力机制和卷积神经网络实现异常检测,提高了模型特征提取能力和检测耗时;利用标准正态分布的3σ准则排除极端值干扰,完成晶圆数据向灰度图的转换。最后以晶圆制造数据训练得到最优模型,相比传统最优方法,准确率提高3%,耗时减少160%,证明了本文方法的有效性。
[1] 马羽,王志宽,崔伟.SiGe集成电路工艺技术现状及发展趋势[J].微电子学,2018,48(4):508-514.
MA Yu,WANG Zhikuan,CUI Wei.Current Status and Development Trend of SiGe Integrated Circuit Technology[J].Microelectronics,2018,48(4):508-514.
[2] 杨振良,汪俊亮,张洁,等.数据驱动的晶圆图缺陷模式识别方法[J].中国机械工程,2019,30(2):230-236.
YANG Zhenliang, WANG Junliang, ZHANG Jie,et al. Data-driven Wafer Pattern Defect Pattern Recognition Method[J]. China Mechanical Engineering, 2019, 30(2): 230-236.
[3] 许鸿伟,张洁,吕佑龙,等.基于改进的连续型深度信念网络的晶圆良率预测方法[J/OL].计算机集成制造系统:1-13[2020-03-18].http:∥kns.cnki.net/kcms/detail/11.5946.tp.20190315.0936.028.html.
XU Hongwei, ZHANG Jie, LYU Youlong, et al. Wafer Yield Prediction Method Based on Improved Continuous Deep Belief Network [J/OL]. [2020-03-18].http:∥kns.cnki.net/kcms/detail/11.5946.tp.20190315.0936.028.html.
[4] KOSTROS M, JAKAB F, JANITOR J. Overview of Big Data Analysis for Root Cause Determination and Problem Predictions[C]∥2014 IEEE 12th International Conference on Emerging E-Learning Technologies and Applications. Stary Smokovec, Slovakia,2014: 15127623.
[5] 韩敏,李宇,韩冰.基于改进结构保持数据降维方法的故障诊断研究[J/OL].自动化学报:1-11[2019-04-12].https:∥doi.org/10.16383/j.aas.c180138.
HAN Min, LI Yu, HAN Bing. Research on Fault Diagnosis Based on Improved Structure to Maintain Data Dimensionality Reduction Method [J/OL].Acta AutomaticaSinica: 1-11[2019-04-12].https:∥doi.org/10.16383 /j.aas.c180138.
[6] 韩敏,张占奎.基于改进核主成分分析的故障检测与诊断方法[J].化工学报,2015,66(6):2139-2149.
HAN Min,ZHANG Zhankui.Fault Detection and Diagnosis Based on Improved Kernel Principal Component Analysis[J].Journal of Chemical Industry and Engineering,2015,66(6):2139-2149.
[7] GARCIA-ALVAREZ D, FUENTE M J, SAINZ G I. Fault Detection and Isolation in Transient States Using Principal Component Analysis[J]. Journal of Process Control, 2012, 22(3): 551-563.
[8] GONG Ruikun, YUAN Kui, NIAN Shanpo, et al. Real-time Reading Recognition of Digital Display Instrument Based on BP Neural Network[C]∥2010 8th IEEE International Conference on Control and Automation. Xiamen,2010: 11446536.
[9] WANG J, JIN Z, WAN S. Faults Diagnosis of Induction Motors Based on Artificial Neural Network[C]∥ International Conference on Control & Automation. Xiamen,2019:167.
[10] YU X, WANG X. Uncorrelated Discriminant Locality Preserving Projections[J]. IEEE Signal Processing Letters, 2008, 15:361-364.
[11] GUO W , YOU X , ZHU Z , et al. Locally Linear Embedding Based Dynamic Texture Synthesis[M]. Berlin: Springer, 2015.
[12] 廖文雄,曾碧,梁天恺,等. 面向高维数据的个人信贷风险评估方法[J]. 计算机工程与应用, 2020, 56(4): 219-224.
LIAO Wenxiong, ZENG Bi, LIANG Tiankai, et al. Personal Credit Risk Assessment Method for High-Dimensional Data[J]. Computer Engineering and Applications , 2020, 56(4): 219-224.
[13] 车建国,赵赛. 基于数据深度的过程工业故障检测方法[J]. 计算机工程与应用, 2020, 56(1): 265-271.
CHE Jianguo, ZHAO Sai. Fault Detection Method Based on Data Depth for Process Industry[J].Computer Engineering and Application, 2020, 56(1): 265-271.
[14] 林荫.基于KNN-SVM的垃圾邮件过滤模型[J].现代电子技术,2016,39(23):90-92.
LIN Yin.Spam Mail Filtering Model Based on KNN-SVM[J].Modern Electronic Technique,2016,39(23):90-92.
[15] LI L S, HUANG D, ZHENG C, et al. Image Feature Extraction Based on an Extended Non-negative Sparse Coding Neural Network Model[C]∥Advances in Neural Networks,Second International Symposium on Neural Networks. Chongqing, 2005: 807-812.
[16] 王勇,周慧怡,俸皓,等.基于深度卷积神经网络的网络流量分类方法[J].通信学报,2018,39(1):14-23.
WANG Yong,ZHOU Huiyi,FENG Hao,et al.A Network Traffic Classification Method Based on Deep Convolution Neural Network[J].Journal on Communications,2018,39(1):14-23.
[17] 孙萍,胡旭东,张永军. 结合注意力机制的深度学习图像目标检测[J]. 计算机工程与应用, 2019, 55(17): 180-184.
SUN Ping, HU Xudong, ZHANG Yongjun. Object Detection Based on Deep Learning and Attention Mechanism[J].Computer Engineering and Application, 2019, 55(17): 180-184.
[18] 王培森,宋彦,戴礼荣.基于多通道视觉注意力的细粒度图像分类[J].数据采集与处理,2019,34(1):157-166.
WANG Peisen,SONG Yan,DAI Lirong.Classification of Fine-grained Image Based on Multi-channel Visual Attention[J].Data Acquisition and Processing,2019,34(1):157-166.
[19] 杨燕,胡小鹏,吴思宁,等.基于注意力选择的局部特征匹配方法[J].大连理工大学学报,2019,59(2):186-193.
YANG Yan, HU Xiaopeng, WU Sining,et al.Local Feature Matching Method Based on Attention Selection[J].Journal of Dalian University of Technology,2019,59(2):186-193.
[20] WANG Xiaoming, XIONG Jiulong, WANG Zhihu, et al. Approach for Image Segmentation Based on Improved Visual Attention Mechanism[C]∥IEEE International Conference on Electronic Measurement & Instruments. Harbin,2013: 14116726.
[21] 刘金利,张培玲. 改进LeNet-5网络在图像分类中的应用[J]. 计算机工程与应用, 2019, 55(15): 32-37.
LIU Jinli, ZHANG Peiling. Application of LeNet-5 Neural Network in Image Classification[J].Computer Engineering and Application, 2019, 55(15): 32-37.
[22] OLIVEROS G A,WANG R,SEETHARAMAN S,et al. Modeling and Laboratory Scale Proof of Concept of the Horizontal Ribbon Growth Process: Application to Silicon Wafer Manufacturing[C]∥38th IEEE Photovoltaic Specialists Conference.Austin,2012: 13055682.
[24] 王文冠,沈建冰,贾云得.视觉注意力检测综述[J].软件学报,2019,30(2):416-439.
WANG Wenguan, SHEN Jianbing, JIA Yunde.A Review of Visual Attention Detection[J].Journal of Software,2019,30(2):416-439.
[25] HAMKER F H. Predictions of a Model of Spatial Attention Using Sum- and Max-pooling Functions[J]. Neurocomputing, 2018, 56:329-343.