TWI814370B

TWI814370B - 用於程序控制之因果卷積網路

Info

Publication number: TWI814370B
Application number: TW111116911A
Authority: TW
Inventors: 羅伊渥克曼; 薩拉希羅伊; 唐恩曼尼克
Original assignee: 荷蘭商Ａｓｍｌ荷蘭公司
Priority date: 2021-05-06
Filing date: 2022-05-05
Publication date: 2023-09-01
Also published as: US20240184254A1; WO2022233562A9; TW202301036A; WO2022233562A8; WO2022233562A1; EP4334782A1; KR20240004599A

Abstract

一種用於組態一半導體製造程序之方法，該方法包含：基於與該半導體製造程序中之一程序步驟之一第一操作相關聯的順次量測獲得一第一參數之複數個第一值；使用一因果卷積神經網路以基於該等第一值判定一第二參數之一預測值；及使用該第二參數之該預測值以用於組態該半導體製造程序中之該程序步驟的一後續操作。

Description

用於程序控制之因果卷積網路

本發明係關於判定對程序之校正之方法、一種半導體製造程序、一種微影裝置、一種微影單元及關聯電腦程式產品。

微影裝置為經建構以將所要圖案施加至基板上之機器。微影裝置可用於例如積體電路(IC)之製造中。微影裝置可例如將圖案化器件(例如遮罩)處之圖案(亦經常被稱作「設計佈局」或「設計」)投影至提供於基板(例如晶圓)上之輻射敏感材料(抗蝕劑)層上。

為了將圖案投影於基板上，微影裝置可使用電磁輻射。此輻射之波長判定可形成於基板上之特徵之最小大小。當前在使用中之典型波長為365nm(i線)、248nm、193nm及13.5nm。與使用例如具有約193nm之波長之輻射的微影裝置相比，使用具有在4nm至20nm之範圍內(例如6.7nm或13.5nm)之波長之極紫外線(EUV)輻射的微影裝置可用以在基板上形成較小特徵。

低k₁微影可用以處理尺寸小於微影裝置之經典解析度極限之特徵。在此類程序中，可將解析度公式表達為CD=k₁×λ/NA，其中λ為所使用輻射之波長、NA為微影裝置中之投影光學器件之數值孔徑、CD為「關鍵尺寸」(通常為經印刷之最小特徵大小，但在此狀況下為半節距)且 k₁為經驗解析度因數。一般而言，k₁愈小，則在基板上再生類似於由電路設計者規劃之形狀及尺寸以便達成特定電功能性及效能的圖案變得愈困難。為了克服此等困難，可將複雜微調步驟應用於微影投影裝置及/或設計佈局。此等步驟包括例如但不限於：NA之最佳化、自訂照明方案、相移圖案化器件之使用、設計佈局之各種最佳化，諸如設計佈局中之光學近接校正(OPC，有時亦被稱作「光學及程序校正」)，或通常被定義為「解析度增強技術」(RET)之其他方法。替代地，用於控制微影裝置之穩定性之嚴格控制迴路可用以改良在低k₁下之圖案之再生。

全文以引用方式併入本文中之國際專利申請案WO 2015049087揭示獲得與工業程序相關之診斷資訊之方法。在微影程序之執行期間之階段處進行對準資料或其他量測，以獲得表示在橫越每一晶圓而空間地分佈之點處所量測的位置偏差或其他參數之物件資料。疊對及對準殘差通常展示橫越晶圓之圖案，其被稱為指紋。

在半導體製造中，可使用簡單控制迴路來校正關鍵尺寸(CD)效能參數指紋(fingerprint)。通常，回饋機構使用掃描器(微影裝置之類型)作為致動器來控制每晶圓之平均劑量。類似地，對於疊對效能參數疊對，可藉由調整掃描器致動器而校正由處理工具誘發之指紋。

稀疏的顯影後檢測(ADI)量測係用作用於控制掃描器(通常批量地)之全域模型之輸入。不太頻繁地量測之密集ADI量測係用於每曝光之模型化。藉由使用密集資料以較高空間密度進行模型化，對具有大殘差之場執行每曝光模型化。需要此較密集度量衡取樣之校正無法在不會不利地影響產出量之情況下頻繁地進行。

基於稀疏ADI資料之模型參數通常並不準確地表示密集量測之參數值是一個問題。此可由模型參數與指紋之未捕捉部分之間發生的串擾所造成。此外，對於此稀疏資料集，模型可能尺寸過大。此情形引入如下問題：在批量控制中之未捕捉指紋並未由每場模型完全捕捉。另一問題為分散式取樣之不穩定的稀疏至密集行為，其中不同晶圓(及不同批次)具有不同取樣使得疊加許多晶圓之佈局有效地導致密集量測結果。模型化之稀疏資料與密集量測之參數值之間存在大的殘差。此導致不良指紋描述，從而導致每曝光次佳校正。

另一問題為，對於對準控制，在曝光期間在不影響產出量之情況下僅可量測少數(約40個)對準標記。高階對準控制需要更密集對準佈局且影響產出量。此問題之解決方案(如圖5中所展示)為在離線工具中量測較密集對準標記(Takehisa Yahiro等人，「Feed-forward alignment correction for advanced overlay process control using a standalone alignment station「Litho Booster」」，Proc.SPIE 10585，微影蝕刻術之度量衡、檢測及程序控制(XXXII Metrology,Inspection,and Process Control for Microlithography XXXII))及在曝光期間前饋此高階校正，其中在曝光期間仍計算低階校正。

對於疊對控制，密集疊對量測實際上可在若干批次中僅執行一次(被稱為高階參數更新)以更新高階校正。用以判定掃描器控制配方之高階參數在高階參數更新量測之間不會改變。

全文以引用方式併入本文中之EP3650939A1提出一種用於預測與半導體製造相關聯之參數之方法。特定言之，針對一系列操作中之每一者，使用取樣器件來量測參數之值。量測值經順次地輸入至遞回神經網路，該遞回神經網路用以預測參數之值，且每一預測用以控制該系列操作中之下一操作。

需要提供一種解決以上所論述之問題或限制中之一或多者的判定對一程序之一校正的方法。

雖然遞回神經網路之使用表示相較於先前已知方法之改良，但已認識到，可使用不同形式之神經網路，且尤其是以下神經網路來獲得優勢：在該神經網路中，為了在當前時間產生對參數之預測，神經網路之輸入向量之複數個分量表示在不遲於當前時間之時間序列的參數(相同參數或不同參數)之值。此類神經網路在本文中被稱作具有「因果卷積」之神經網路。

本發明之實施例揭示於申請專利範圍中及實施方式中。

在本發明之一第一態樣中，提供一種用於組態一半導體製造程序之方法，該方法包含：獲得由與一半導體製造程序相關聯之一第一參數之複數個值構成的一輸入向量，該第一參數之該複數個值係基於在該半導體製造程序之複數個各別第一操作時間執行的各別量測；使用一因果卷積神經網路以基於該輸入向量在不早於該等第一時間的一第二操作時間判定一第二參數之一預測值；及使用因果卷積神經網路之一輸出來組態該半導體製造程序。

在一種狀況下，該半導體製造程序可使用該第二參數之該預測值(「第二參數值」)來組態。然而，替代地，該半導體製造程序可使用由因果卷積神經輸出之另一值來組態，諸如在接收輸入向量之輸入層與輸出第二參數之預測值之輸出層中間的因果卷積神經之隱藏層之輸出。隱藏層之輸出可例如經輸入至經組態以產生半導體製造程序之控制值之額外模組(例如自適應模組)。

儘管上文僅所提及單一第一參數，但對於第一時間中之每一者，輸入向量可包括與半導體製造程序相關聯之複數個第一參數之值，每一第一參數之值係基於在第一時間中之各別時間所執行的各別量測。類似地，因果卷積神經網路可在第二時間輸出多個第二參數之經預測值。

第一參數可與第二參數相同，或可不同。在第一狀況下，該方法基於在第一時間第一參數之量測值而產生在第二操作時間對第一參數之預測。

組態半導體製造程序之步驟可包含使用第二參數之預測值以判定半導體製造程序中之程序步驟之後續操作的控制配方。

此外，組態半導體製造程序之步驟可包含使用該預測值以調整該程序之控制參數。

在一個實例中，該因果卷積網路可包含至少一個自注意力層，該至少一個自注意力層在接收到針對第一時間中之每一者之至少一個值(例如輸入向量)以針對該等第一時間之至少最近的時間產生針對該等第一時間中之每一者之各別記分；且產生至少一個總和值，該至少一個總和值為由各別記分加權的針對每一第一時間之各別項在該等第一時間內的總和。舉例而言，針對每一第一時間之第一參數之值可用以產生各別值向量，且自注意力層可產生總和值，該總和值為由各別記分加權的各別值向量在第一時間內的總和。因此，該記分判定第一時間中之每一者在計算總和值時的重要性。

此意謂，不同於通常最近時間最受影響的遞回網路，因果卷積網路可以使強調在過去任何數目個時間之量測值之方式產生記分。此允許捕捉存在時間相依性之重複圖案的時間行為。

針對複數個時間之各別記分可產生為針對至少最近的第一時間之查詢向量與針對複數個第一時間中之每一者之各別鍵向量的乘積。針對每一第一時間，可藉由將各別濾波器(例如矩陣，其為因果卷積網路之可調整參數)應用於針對各別第一時間之第一參數之嵌入來產生查詢向量、鍵向量及值向量。因此，因果卷積網路與已在別處主要用於語音處理應用之「變壓器」架構有類似性。

在本發明之一第二態樣中，提供一種半導體製造程序，其包含用於根據該第一態樣之該方法預測與該半導體製造程序相關聯之一參數之一值的方法。

在本發明之一第三態樣中，提供一種微影裝置，其包含：一照明系統，其經組態以提供一投影輻射光束；一支撐結構，其經組態以支撐一圖案化器件，該圖案化器件經組態以根據一所要圖案圖案化該投影光束；一基板台，其經組態以固持一基板；一投影系統，其經組態以將該經圖案化光束投影至該基板之一目標部分上；及一處理單元，其經組態以：根據該第一態樣之該方法預測與該半導體製造程序相關聯之一參數之一值。

在本發明之一第四態樣中，提供一種微影單元，其包含該第三態樣之該微影裝置。

在本發明之一第五態樣中，提供一種電腦程式產品，其包含用於使一通用資料處理裝置執行該第一態樣之一方法的步驟之機器可讀指令。

60:半導體處理模組

61:取樣單元

62:記憶體單元

63:神經網路處理單元

64:控制單元

,

,

,81_t-N+1，81_t:編碼器

82:第一注意力層

83:注意力模組

84:第二注意力層

402:早先高階疊對參數HO1

404:量測

406:控制配方

408:量測

410:量測

412:控制配方

502:離線對準標記量測步驟

504:離線密集量測

506:離線量測工具

508:經量測之高階對準參數值

512:控制配方

514:曝光步驟/曝光

516:低階對準參數

602:初始訓練(TRN)步驟

604:步驟

605:步驟

606:量測/步驟

607:步驟

608:高階參數之量測值

610:控制配方

612:高階參數之預測值

614:控制配方

616:處理

618:低階參數之值

620:低階參數之值

622:控制配方

626:高階參數之後續值

628:量測

700:神經網路/系統

701:節點

702:輸入層

703:注意力層

704:乘法節點

705:記憶體單元

706:自適應組件

707:隱藏層

708:輸出層

800:第二因果卷積網路/系統

801:節點

806:自適應組件

901:編碼器單元

902:解碼器單元

903:堆疊編碼器層

904:解碼器層

905:自注意力層

906:添加及正規化層

907:前饋層/前饋網路

908:編碼器-解碼器注意力層

1001:第一解碼器層

1002:第二解碼器層

B:輻射光束

BD:光束遞送系統

BK:烘烤板

C:目標部分

CH:冷卻板

CL:電腦系統

DE:顯影器

HO1:高階疊對參數/經量測之高階對準參數值

HO2:經量測之高階對準參數值

HO3:經量測之高階對準參數值

HO4:經量測之高階對準參數值

HO5:經量測之高階對準參數值

HO6:高階疊對參數/經量測之高階對準參數值

HO7:經量測之高階對準參數值

HO8:經量測之高階對準參數值

HO9:經量測之高階對準參數值

HO10:經量測之高階對準參數值

IF:位置量測系統

IL:照明系統/照明器

I/O1:輸入/輸出埠

I/O2:輸入/輸出埠

LA:微影裝置

LACU:微影控制單元

LB:裝載匣

LC:微影單元

L1:第一操作/第一批次/晶圓批次

L2:操作/曝光/晶圓批次/步驟

L3:操作/曝光/晶圓批次/步驟

L4:操作/曝光/晶圓批次/步驟

L5:操作/曝光/晶圓批次/步驟

L6:操作/曝光/第六批次/晶圓批次

L7:操作/晶圓批次

L8:操作/晶圓批次

L9:操作/晶圓批次

L10:操作/晶圓批次

LO1:低階疊對參數/低階參數

M1:遮罩對準標記

M2:遮罩對準標記

MA:圖案化器件

MT:度量衡工具

P1:基板對準標記

P2:基板對準標記

PM:第一定位器

PS:投影系統

PW:第二定位器

RO:基板處置器或機器人

O_t:輸出

SC:旋塗器

SCS:監督控制系統

SC1:第一標度

SC2:第二標度

SC3:第三標度

SO:輻射源

TCU:塗佈顯影系統控制單元

W:基板

WT:基板支撐件

現在將僅作為實例參看隨附示意性圖式來描述本發明之實施例，在該等圖式中：- 圖1描繪微影裝置之示意性綜述；- 圖2描繪微影單元之示意性綜述；- 圖3描繪整體微影之示意性表示，其表示用以最佳化半導體製造之三種關鍵技術之間的合作；- 圖4描繪半導體製造程序之疊對取樣及控制之示意性綜述；- 圖5描繪半導體製造程序之已知對準取樣及控制之示意性綜述；圖6由圖6(a)及圖6(b)構成，圖6(a)描繪執行作為本發明之一實施例之方法的環境，且圖6(b)為根據本發明之一實施例的半導體製造程序之取樣及控制之方法的示意圖綜述；- 圖7為根據根據一實施例之程序的用於使用第一參數之量測值之輸入向量來預測第二參數之值的第一因果卷積網路；- 圖8為根據根據一實施例之程序的用於使用第一參數之量測值之輸入向量來預測第二參數之值的第二因果卷積網路；- 圖9由圖9(a)、圖9(b)及圖9(c)構成，圖9(a)為根據根據一實施例之程序的用於使用第一參數之量測值之輸入向量來預測在稍後時間之該第一參數之值的第三因果卷積網路，圖9(b)展示圖9(a)之網路之編碼器單元的結構，且圖9(c)展示圖9(a)之網路之解碼器單元的結構；- 圖10為根據根據一實施例之程序的用於使用第一參數之量測值之輸入向量來預測在稍後時間之該第一參數之值的第四因果卷積網路；且- 圖11展示比較圖10之因果卷積網路之效能與被稱作時間卷積神經網路(TCN)的另一類型之因果卷積網路之效能與已知預測模型之效能的實驗結果。

在本發明文件中，術語「輻射」及「光束」用以涵蓋所有類型之電磁輻射，包括紫外線輻射(例如，具有為365nm、248nm、193nm、157nm或126nm之波長)及極紫外線輻射(EUV，例如，具有在約5nm至100nm之範圍內之波長)。

如本文中所採用之術語「倍縮遮罩」、「遮罩」或「圖案化器件」可被廣泛地解譯為係指可用以向入射輻射光束賦予經圖案化截面之通用圖案化器件，該經圖案化截面對應於待在基板之目標部分中產生之圖案。在此內容背景中，亦可使用術語「光閥」。除經典遮罩(透射或反射；二元、相移、混合式等)以外，其他此類圖案化器件之實例包括可程式化鏡面陣列及可程式化LCD陣列。

圖1示意性地描繪微影裝置LA。該微影裝置LA包括：照明系統(亦被稱作照明器)IL，其經組態以調節輻射光束B(例如UV輻射、DUV輻射或EUV輻射)；遮罩支撐件(例如遮罩台)MT，其經建構以支撐圖案化器件(例如遮罩)MA且連接至經組態以根據某些參數來準確地定位該圖案化器件MA之第一定位器PM；基板支撐件(例如晶圓台)WT，其經建構以固持基板(例如抗蝕劑塗佈晶圓)W且連接至經組態以根據某些參數來準確地定位基板支撐件之第二定位器PW；及投影系統(例如折射投影透鏡系統)PS，其經組態以將由圖案化器件MA賦予輻射光束B之圖案投影至基板W之目標部分C(例如包含一或多個晶粒)上。

在操作中，照明系統IL例如經由光束遞送系統BD自輻射源SO接收輻射光束。照明系統IL可包括用於引導、塑形及/或控制輻射的各種類型之光學組件，諸如折射、反射、磁性、電磁、靜電及/或其他類型之光學組件，或其任何組合。照明器IL可用以調節輻射光束B，以在圖案化器件MA之平面處在其截面中具有所要空間及角強度分佈。

本文所使用之術語「投影系統」PS應被廣泛地解譯為涵蓋適於所使用之曝光輻射及/或適於諸如浸潤液體之使用或真空之使用之其他因素的各種類型之投影系統，包括折射、反射、反射折射、合成、磁性、電磁及/或靜電光學系統，或其任何組合。可認為本文中對術語「投影透鏡」之任何使用皆與更一般之術語「投影系統」PS同義。

微影裝置LA可屬於如下類型：其中基板之至少一部分可由具有相對較高折射率之液體(例如水)覆蓋，以便填充投影系統PS與基板W之間的空間-此亦被稱作浸潤微影。以引用方式併入本文中之US6952253中給出關於浸潤技術之更多資訊。

微影裝置LA亦可屬於具有兩個或多於兩個基板支撐件WT(又名「雙載物台」)之類型。在此「多載物台」機器中，可並行地使用基板支撐件WT，及/或可對位於基板支撐件WT中之一者上的基板W進行準備基板W之後續曝光的步驟，同時將另一基板支撐件WT上之另一基板W用於在該另一基板W上曝光圖案。

除了基板支撐件WT以外，微影裝置LA亦可包含量測載物台。量測載物台經配置以固持感測器及/或清潔器件。感測器可經配置以量測投影系統PS之屬性或輻射光束B之屬性。量測載物台可固持多個感測器。清潔器件可經配置以清潔微影裝置之部分，例如投影系統PS之部分或提供浸潤液體之系統之部分。量測載物台可在基板支撐件WT遠離投影系統PS時在投影系統PS下方移動。

在操作中，輻射光束B入射於被固持於遮罩支撐件MT上之圖案化器件(例如遮罩)MA上，且係由存在於圖案化器件MA上之圖案(設計佈局)而圖案化。在已橫穿遮罩MA的情況下，輻射光束B傳遞通過投影系統PS，投影系統PS將該光束聚焦至基板W之目標部分C上。憑藉第二定位器PW及位置量測系統IF，可準確地移動基板支撐件WT，例如以便使不同目標部分C在輻射光束B之路徑中定位於經聚焦且對準之位置處。類似地，第一定位器PM及可能另一位置感測器(其未在圖1中明確地描繪)可用以相對於輻射光束B之路徑來準確地定位圖案化器件MA。可使用遮罩對準標記M1、M2及基板對準標記P1、P2來對準圖案化器件MA及基板W。儘管如所繪示之基板對準標記P1、P2佔據專用目標部分，但該等標記可位於目標部分之間的空間中。當基板對準標記P1、P2位於目標部分C之間時，此等基板對準標記P1、P2被稱為切割道對準標記。

如圖2所展示，微影裝置LA可形成微影單元LC(有時亦被稱作微影單元(lithocell)或(微影)叢集)之部分，微影單元LC常常亦包括用以對基板W執行曝光前程序及曝光後程序之裝置。通常，此等裝置包括用以沈積抗蝕劑層之旋塗器SC、用以顯影經曝光抗蝕劑之顯影器DE、例如用於調節基板W之溫度例如以用於調節抗蝕劑層中之溶劑之冷卻板CH及烘烤板BK。基板處置器或機器人RO自輸入/輸出埠I/O1、I/O2拾取基板W、在不同程序裝置之間移動基板W且將基板W遞送至微影裝置LA之裝載匣LB。微影單元中常常亦被集體地稱作塗佈顯影系統之器件通常係在塗佈顯影系統控制單元TCU之控制下，塗佈顯影系統控制單元TCU自身可受到監督控制系統SCS控制，監督控制系統SCS亦可例如經由微影控制單元LACU而控制微影裝置LA。

為了正確且一致地曝光由微影裝置LA曝光之基板W，需要檢測基板以量測經圖案化結構之屬性，諸如後續層之間的疊對誤差、線厚度、關鍵尺寸(CD)等。出於此目的，可在微影單元LC中包括檢測工具(圖中未繪示)。若偵測到誤差，則可對後續基板之曝光或對待對基板W執行之其他處理步驟進行例如調整，尤其是在同一分批或批次之其他基板W仍待曝光或處理之前進行檢測的情況下。

亦可被稱作度量衡裝置之檢測裝置用以判定基板W之屬性，且尤其判定不同基板W之屬性如何變化或與同一基板W之不同層相關聯之屬性在不同層間如何變化。檢測裝置可替代地經建構以識別基板W上之缺陷，且可例如為微影單元LC之部分，或可整合至微影裝置LA中，或可甚至為單機器件。檢測裝置可量測潛影(在曝光之後在抗蝕劑層中之影像)上之屬性，或半潛影(在曝光後烘烤步驟PEB之後在抗蝕劑層中之影像)上之屬性，或經顯影抗蝕劑影像(其中抗蝕劑之曝光部分或未曝光部分已被移除)上之屬性，或甚至經蝕刻影像(在諸如蝕刻之圖案轉印步驟之後)上之屬性。

通常，微影裝置LA中之圖案化程序為需要結構在基板W上之定尺寸及置放之高準確度的處理中之最關鍵步驟中之一者。為了確保此高準確度，可將三個系統組合在一所謂的「整體」控制環境中，如在圖3中示意性地描繪。此等系統中之一者為微影裝置LA，其(實際上)連接至度量衡工具MT(第二系統)且連接至電腦系統CL(第三系統)。此「整體」環境之關鍵在於最佳化此等三個系統之間的合作以增強總體程序窗口且提供嚴格控制迴路，從而確保由微影裝置LA執行之圖案化保持在程序窗口內。程序窗口界定程序參數(例如劑量、焦點、疊對)之範圍，在該程序參數範圍內特定製造程序得到所界定結果(例如功能半導體器件)-通常在該程序參數範圍內，微影程序或圖案化程序中之程序參數被允許變化。

電腦系統CL可使用待圖案化之設計佈局(之部分)以預測使用哪種解析度增強技術且執行運算微影模擬及計算以判定哪種遮罩佈局及微影裝置設定達成圖案化程序之最大總體程序窗口(在圖3中由第一標度SC1中之雙箭頭描繪)。通常，解析度增強技術經配置以匹配於微影裝置LA之圖案化可能性。電腦系統CL亦可用以偵測在程序窗口內何處微影裝置LA當前正操作(例如使用來自度量衡工具MT之輸入)以預測歸因於例如次佳處理是否可存在缺陷(在圖3中由第二標度SC2中之指向「0」之箭頭描繪)。

度量衡工具MT可將輸入提供至電腦系統CL以實現準確模擬及預測，且可將回饋提供至微影裝置LA以識別例如微影裝置LA之校準狀態中的可能漂移(在圖3中由第三標度SC3中之多個箭頭描繪)。

用於組態半導體製造程序之因果卷積網路之使用

因果卷積網路為一神經網路(自適應系統)，其經組態以在順次時間中之每一者內接收針對每一時間之輸入向量，該輸入向量特性化描述在一或多個較早時間之程序(在本發明之狀況下，半導體製造程序)之至少一個第一參數之值，且獲得在當前時間對第二參數(其可視情況為第一參數)之值的預測。因果卷積網路之可能類型在下文部分參考圖7及圖8加以描述。首先，吾人描述用於組態半導體製造程序之因果卷積網路的三個應用。

用於預測高階指紋之因果卷積網路

圖4描繪半導體製造程序之疊對取樣及控制之示意性綜述。參考圖4，展示十個晶圓批次(或分批或晶圓)上之曝光程序步驟之一連串十個操作L1至L10。在複數個各別時間執行此等操作。基於使用空間上密集取樣方案對第一批次L1之量測404獲得高階疊對參數HO1之值。使用高階疊對參數HO1以組態半導體製造程序，例如藉由判定接下來五個批次之後續曝光L2至L6之控制配方406。接著，基於高階疊對參數HO1之早先量測402及基於使用空間上密集取樣方案對第六批次L6之量測408獲得高階疊對參數HO6之一更新值。在此實例中，高階參數更新在每隔五個批次之曝光時重複。

同時，對於每一批次之曝光，根據稀疏量測計算每批次之低階校正。舉例而言，在批次L1之曝光處，基於使用稀疏取樣方案之量測410獲得低階疊對參數LO1，該稀疏取樣方案相比於空間上密集取樣方案在空間上較不密集且較頻繁。低階參數LO1用以組態半導體製造程序，例如藉由判定曝光步驟之後續操作L2之控制配方412等等。

因此，根據稀疏量測計算每批次之低階校正，且自若干批次中之一次密集量測獲得高階校正。

圖5描繪半導體製造程序之對準取樣及控制之示意性綜述。參考圖5，晶圓批次L1至L10具有離線對準標記量測步驟502。量測504係藉由離線量測工具506執行，該離線量測工具經最佳化以用於以高空間取樣密度進行離線量測。經量測之高階對準參數值508針對每一晶圓批次L1至L10經儲存為HO1至HO10。接著每一高階對準參數值用以判定對應晶圓批次L1至L10上之曝光步驟514之操作的控制配方512。對準參數可為邊緣置放誤差(edge placement error；EPE)。

同時，對於每一批次之曝光，根據稀疏量測計算每批次之低階校正。舉例而言，在批次L1之曝光514處，基於使用稀疏取樣方案之量測獲得低階對準參數516，該稀疏取樣方案相比於空間上密集取樣方案在空間上較不密集。該低階對準參數具有與高階對準參數之離線密集量測504相同之頻率(每批次)。低階參數516用以判定同一曝光步驟之操作L1的控制配方。

實施例使用用於使用因果卷積神經網路在密集量測之間更新疊對及對準量測兩者之策略。此改良了對準及疊對控制之效能，對產出量之影響最小。完全非依賴性之因果卷積神經網路預測(在訓練後不需要密集量測)亦係可能的，然而，若學習變得不充分，則其可在一段時間後發散。

圖6(a)描繪一環境，諸如微影裝置或包括微影裝置之環境，在該環境中執行根據本發明之一實施例的半導體製造程序之取樣及控制之方法。該環境包括用於對順次晶圓批次(基板)執行半導體處理操作之半導體處理模組60。處理模組60可例如包含：照明系統，其經組態以提供投影輻射光束；及支撐結構，其經組態以支撐圖案化器件。圖案化器件可經組態以根據所要圖案來圖案化投影光束。處理模組60可進一步包含：基板台，其經組態以固持基板；及投影系統，其經組態以將經圖案化光束投影至基板之目標部分上。

該環境進一步包括用於基於第一取樣方案執行掃描操作之取樣單元61。掃描產生特性化晶圓批次之至少一個第一參數之值。舉例而言，第一取樣方案可指定：針對使用空間上密集取樣方案針對該等批次中之某些批次(例如每五個批次中之一個批次)量測高階參數，且對於其他批次，不執行量測。

該環境進一步包括記憶體單元62，該記憶體單元用於儲存由掃描單元61輸出之值，且在多個時間(時間步驟)中之每一者處，產生包括經儲存值之輸入向量作為分量(輸入值)。

該環境進一步包括用於在給定時間接收輸入向量之神經網路處理單元63。該神經網路為如下文所描述之因果卷積神經網路。其輸出第二參數值。視情況，第二參數可與第一參數相同，且神經網路之輸出可為關於晶圓批次之高階參數之預測值，針對該等晶圓批次，根據第一取樣方案，取樣單元61不產生高階參數。

該環境進一步包括控制單元64，該控制單元基於由神經網路處理單元63輸出之第二參數值產生控制資料。舉例而言，控制單元可指定待用於處理模組60之下一順次操作中之控制配方。

圖6(b)描繪根據本發明之一實施例的半導體製造程序之取樣及控制之方法的示意性綜述。

參考圖6(b)，高階參數之更新係藉由使用因果卷積神經網路在批次/晶圓之間進行預測來達成。此為對準及疊對兩者提供改良之高階校正。低階校正係每晶圓進行量測，而高階校正係運用因果卷積神經網路針對批次/晶圓之間進行預測。神經網路經組態有初始訓練(TRN)步驟602。

圖6(b)描繪用於預測與半導體製造程序相關聯之高階參數之值的方法。可在如圖6(a)中所展示之環境中執行該方法。在一實例中，半導體製造程序為微影曝光程序。程序之第一操作表示為L1。取樣單元61量測作為在y方向上之三階掃描器曝光放大率參數D3y的參數。該方法涉及在執行操作L1之前，基於使用空間上密集取樣方案之量測606(藉由對應於圖6(a)之取樣單元61的單元)獲得高階參數之值608。此值在步驟604中傳遞至記憶體單元(對應於圖6(a)之記憶體單元62)。高階參數之量測值608可直接用以判定用於在操作L1中處理616經量測批次之控制配方610。

另外，低階參數之值618可基於使用空間上稀疏取樣方案之量測而獲得。稀疏取樣方案相比於用於量測606之高階取樣方案在空間上較不密集且更頻繁。替代地或另外，低階參數之值618可用以判定用於操作L1之控制配方。舉例而言，其可用以判定操作L1之控制配方610。

在步驟605中，處理單元(諸如圖6(a)之處理單元63)用以基於輸入向量而判定高階參數之預測值612，該輸入向量包含自半導體製造程序中之程序步驟之第一操作L1處的量測606獲得的高階參數之量測值608。預測值612用以判定半導體製造程序中之程序步驟之後續操作L2的控制配方614。

可基於對支撐於同一基板台上之同一基板執行之量測而獲得低階參數之值620，在該基板台處執行程序步驟之後續操作L2。可使用低階參數之值620來判定控制配方622。

在一系列後續步驟606中之每一者中，處理單元用以基於包含自量測606獲得之高階參數之量測值608的輸入向量而判定高階參數之預測值。視情況，其可進一步採用低階參數值618、620。

應注意，在操作L5之後且在操作L6之前，基於使用密集取樣方案之量測628獲得高階參數之後續值626。此值亦傳遞至記憶體單元62，且在後續時間與量測值608一起使用以形成用於神經網路處理單元63之輸入向量，使得在後續步驟607中，高階參數之對應的後續預測係基於值608、626(且視情況基於亦根據第二取樣方案獲得的低階量測)。可無限地執行此程序，其中在每五次(或以變化形式，任何其他數目次)操作之後添加使用密集取樣方案之量測的額外集合。

應注意，在一變化形式中，在步驟605處神經網路之輸出可替代地用作高階參數預測以在所有步驟L2至L5處選擇控制配方，而非基於相同輸入向量執行所有步驟605、606。換言之，可省略步驟606。在另一變化中，神經網路可在步驟605處經組態以在神經網路之單一操作中在所有步驟L2至L5處產生對高階參數之預測。

在此實例中，半導體製造程序為圖案化基板之逐批程序。用於獲得高階參數之取樣方案具有每5(如圖6(b)中所展示)至10個分批之量測頻率。第二取樣方案具有每分批一個之量測頻率。儘管圖6中未展示，但可針對比10大得多的一連串批次(諸如至少50個或超過100個)執行該方法，其中輸入向量逐漸累積所量測之高階參數，使得神經網路作出之預測變成基於大量的量測值。輸入向量可具有最大大小，且一旦已進行高於此最大大小的多個量測(在以下之圖7中表示為N)，則可將輸入向量定義為含有最近的N個量測。

在此實例中，半導體製造程序為使用曝光場來圖案化基板之程序。用於獲得高階參數之取樣方案具有每場200至300個量測點之空間密度且用於獲得低階參數之取樣方案具有每場2至3個量測點之空間密度。

如參考圖6(b)所描述，預測與半導體製造程序相關聯之參數之值的方法可在半導體製造程序內實施。該方法可在具有處理單元(諸如圖2中之LACU)之微影裝置中實施。其可在圖2之監督控制系統SCS或圖 3之電腦系統CL中的處理器中實施。

本發明亦可體現為電腦程式產品，其包含用於致使通用資料處理裝置執行如參考圖6(b)所描述之方法之步驟的機器可讀指令。

相較於圖4之方法，圖6(b)之方法的優勢在於對於疊對，不需要進行額外量測。對於對準，每批次僅需要少數晶圓來進行空間上密集量測，而所有晶圓都接收基於不同高階參數而判定之不同控制配方。中間批次(用於疊對)或晶圓(用於對準)接收運用由因果卷積神經網路預測之高階參數而判定之經更新之控制配方。不需要晶圓台(夾盤)匹配，此係因為針對疊對及對準參數，在同一晶圓台上執行低階量測及對應控制配方更新。

實施例提供一種用以將高階參數包括至對準校正中而無需量測每一晶圓的方式。實施例亦改良用於更新疊對量測之方法。

用以更新控制模型之參數之因果卷積網路

替代地或除了使用更新(高階)參數之方法以外，本發明之方法亦可用以更新用以更新該等參數之模型之參數。因此，第二參數可能不為效能參數，而是模型參數。舉例而言，半導體製造程序之批量控制通常係基於使用週期性量測之程序(有關)參數對程序校正之判定。為了防止程序校正之波動過大，常常將按指數律成比例之加權移動平均值(EWMA)方案應用於歷史程序參數量測資料之集合，該集合不僅包括最後獲得之程序參數的量測值。EWMA方案可具有關聯加權參數之集合，該等加權參數中之一者為所謂的「平滑常數」λ。平滑常數規定了經量測之程序參數值用於未來程序校正之程度，或換而言之；使用追溯到多久以前的經量測之程序參數值來判定當前程序校正。EWMA方案可由下式表示 Z _i=λ．X _i+(1-λ)．Z _i-1：其中Zi-1可例如表示先前經判定為最適合於校正批(通常為一批基板)「i-1」之程序參數值，Xi為如針對批「i」量測之程序參數，且接著Zi經預測為表示最適合於校正批「i」(批「i-1」之後的批)之程序參數值。

關於在程序控制中使用EWMA之更多資訊提供於例如全文特此以引用之方式被包括的「Automated Process Control optimization to control Low Volume Products based on High Volume Products data，SPIE 5755會議記錄，2005年5月17日，doi：10.1117/12.598409」中。

平滑常數之取值直接地影響用於判定針對批「i」之程序校正的經預測之最佳程序參數。然而，可出現程序波動，其可影響平滑常數(或與用於加權歷史程序參數資料之模型相關聯之任何其他參數)之最佳值。

提議使用如先前實施例中所描述之因果卷積神經網路以基於與半導體製造程序相關聯之第一參數之歷史量測值來預測該第一參數之一或多個值。代替判定半導體製造程序中之程序步驟之後續操作的控制配方或除了判定半導體製造程序中之程序步驟之後續操作的控制配方，亦提議基於第一參數之經預測值更新與加權模型相關聯之一或多個參數。該一或多個參數可包括平滑常數。舉例而言，平滑常數可基於使用因果卷積神經網路對第一參數之預測值與使用加權模型(例如通常為基於EWMA之模型)所預測之第一參數之值之間的一致性程度而判定。選擇給與最佳一致性的加權參數(例如通常為平滑常數)。當以使用因果卷積神經網路進行預測為基準時，平滑常數之品質之週期性重新評估會確保EWMA模型在任何時間點處的最佳組態。在變化形式中，第二參數可為平滑參數自身。

在一實施例中，揭示一種用於預測與半導體製造程序相關聯之第一參數之值的方法，該方法包含：基於使用第一取樣方案之量測獲得第一參數之第一值；使用因果卷積神經網路以基於該第一值判定該第一參數之預測值；基於第一參數之預測值與第一參數之所獲得第一值判定與由半導體製造程序之控制器使用之模型相關聯的參數之值。

在一實施例中，先前實施例之判定係基於將第一參數之預測值與藉由將模型應用於第一參數之所獲得第一值而獲得的第一參數之值進行比較。

用以識別半導體製造程序之處理組件中之故障的因果卷積網路

因果卷積網路之第三應用為識別半導體製造程序之組件中之故障。舉例而言，若第二參數值為指示組件不正確地操作或更一般而言在半導體製造程序中發生事件(「故障事件」)之值，則可進行此操作。在使用由因果卷積神經網路輸出之第二參數之預測的情況下，觸發用於半導體製造程序中之設備的維護。

舉例而言，考慮該程序採用經定位以便曝光製造商半導體物品之各別側上之半導體之各別面的兩個掃描單元的情形。神經網路可接收在擴展時段內進行掃描之後對半導體之兩個面進行的量測之輸出，且經訓練以識別掃描器中之一者之操作變得有缺陷的情形。神經網路可例如發佈警告信號，該警告信號警告掃描器中之一者變得有缺陷且需要維護/維修。警告信號可指示應替代地使用另一掃描器。

在另一狀況下，因果卷積網路可預測經組態以在半導體製造程序之某一階段觀測並特性化半導體物品的器件之輸出。其根據偏差準則識別出在器件之預測與實際輸出之間是否存在偏差。若是，則此偏差為器件中故障之指示，且用以觸發器件之維護操作。

因果卷積網路之特定形式

吾人現在描述可用於以上方法中的因果卷積網路之特定形式。圖7中繪示第一此類神經網路700。神經網路700具有包含複數個節點701之輸入層702。在給定當前時間(此處表示為時間t)，節點701接收各別第一參數值{I _t-N ,I _t-N+1 ,I _t-N+2 ,....I _t-1}(亦即，I _i其中i=t-N,...t-1)，其描述在比當前時間早的複數個時間半導體製造程序之第一參數。神經網路700在此狀況下產生與時間t相關之輸出O _t。O _t可例如為在時間t時對第一參數之預測。

因果卷積網路包括注意力層703，該注意力層針對輸入層702中之每一節點701，採用各別乘法節點704。針對第i個第一參數值I _i之乘法節點704，形成I _i與儲存於記憶體單元705中之N分量權重向量之第i分量{C _i}的乘積。亦即，存在輸入向量{I _i}與權重向量{C _i}之逐元素乘法。值{C _i}為「注意力值」，其具有判定關於第一參數之對應值I _i之資訊稍後在程序中之使用程度的功能。若針對i之給定值，C _i=0，則稍後在程序中不使用關於I _i之值。值{C _i}中之每一者可為二進位，亦即0或1。亦即，其具有排除關於時間之資訊的功能(若針對i之彼值，C _i為零)，但對於C _i為非零的彼等i，其並不改變值I _i之大小(相對重要性)。在此狀況下，乘法節點704被稱為「硬注意力模式」。相反地，若值{C _i}可採取實值(亦即，自連續範圍)，則乘法節點被稱為軟注意力節點，其僅部分地控制輸入值至系統700之後續層之傳輸。

輸入向量{I _i}與權重向量{C _i}之逐元素乘積用於至自適應組件706之輸入處，該自適應組件包含輸出O _t之輸出層708，且視情況包含一或多個隱藏層707。層707中之至少一者(且視情況全部)可為卷積層，其基於各別核心產生至卷積層之輸入之卷積。在神經網路700之訓練期間，訓練權重矩陣{C _i}之值，且較佳亦訓練定義隱藏層707及/或輸出層708之對應可變參數。舉例而言，若層707中之一或多者為卷積層，則卷積層之核心可在訓練程序中自適應地修改。

應注意，在每個時間都使用N個先前時間步驟處的I _i之值，因此，可獲得關於所有此等步驟之完整且明確的資訊。此與EP3650939A1之遞回神經網路形成對比，在該遞回神經網路中，在每一時間，關於更早時間之資訊可僅以已重複地與關於中間時間之資料混合之形式獲得。

轉向圖8，展示第二因果卷積網路800。與圖7之因果卷積網路形成對比，神經網路700之單一注意力層703係由複數個注意力層82、84(為簡單起見僅展示兩個，但可使用其他層)替換。輸入值為在N ²個時間i=t-N ²+1,…,t之各別集合下之第一參數I _i之各別值。該等輸入值經供應至各別節點801之輸入層。

每一值I _i係由各別節點801供應至各別編碼器

，…，81_t以產生經編碼值。每一編碼器基於至少一個可變參數對第一參數之各別值進行編碼，因此，每第一參數值存在一可變參數，且此等可變參數用以產生N ²個各別經編碼輸入值。

N ²個輸入值分割成N個群組，每個群組有N個元素。輸入值之第一此類群組為在N個時間i=t-N+1,…,t之各別集合下之I _i。對於取值j=1,…N之整數索引j，第j個此類群組為在N個時間i=t-jN+1,…,t-N(j-1)之各別集合下之輸入值I _i。各別經編碼輸入值被相應地分割。

第一注意力層82接收由N ²個編碼器

，…，81_t產生之經編碼值。對於該等群組中之每一者，提供各別注意力模組83。注意力模組83將輸入值之對應群組之N個經編碼值乘以各別注意力係數。特定言之，經編碼值之第j群組各自個別地乘以表示為C _i,t-j-1之注意力係數。因此，由第一注意力層82使用之注意力值集合自C _i,t延行至C _i,t-N-1。每一區塊83可輸出N個值，該等值中之每一者為對應經編碼值乘以C _i,t-j-1之對應值。

第二注意力層84包括一單元，該單元將由第一注意力層82逐元素輸出之所有N ²值乘以第二注意力係數C _t-1，因此產生第二注意力值。該等第二注意力值經輸入至自適應組件806，該自適應組件可具有與圖7之自適應組件706相同之結構。

系統800之訓練包括訓練編碼器81之N ²個參數，注意力模組83之N個參數，及參數C _t-1，以及自適應組件806之參數。

圖8之若干變化係可能的。首先，有可能省略編碼器81。然而，包括編碼器81係較佳的，此係由於如上文所提及，其針對輸入值中之每一者提供至少一個可變參數。

此外，儘管圖8中未展示，但系統800可包含接收自適應組件806之輸出且自其產生經解碼信號的解碼器系統。因此，該系統作為整體充當用於一些機器轉譯任務之類型的編碼器-解碼器系統。解碼器系統因此產生第二參數之值的時間序列。

解碼器系統亦可包括視情況具有圖8中所展示之相同階層式系統的注意力層。舉例而言，單一第三注意力值可與注意力模組806之所有輸出相乘，且接著可將結果分組且每一群組乘以各別第四注意力值。

轉向圖9(a)，展示因果卷積網路之另一形式。此形式採用「變壓器」架構，其與「Attention Is All You Need」(A.Vaswani等人， 2017年，arXiv：1706.03762)中所揭示之變壓器類似，其之揭示內容係以引用方式併入本文中，且讀者參考其之關於下文所論述之注意力層905、908的數學定義。該因果卷積層在單個第一參數x之實例中予以解釋，該第一參數特性化在給定第一時間之製造程序，諸如如上文所解釋之微影程序。更常，存在在第一時間中之每一者下量測的多個第一參數；x在此狀況下表示對應於某第一時間之向量，其為在彼第一時間量測的第一參數中之每一者之值。

該因果卷積網路經配置以在t₀個各別第一時間之序列(表示為t=1,….t₀)時接收第一參數x之量測值x ⁽¹⁾,x ⁽²⁾,...,

，其中t及t ₀為整數變數，且自其預測在未來「第二」時間t ₀+1之第一參數之值

。t₀第一時間可為參數x被量測之最後時間，且t ₀+1可為其下一次要被量測的時間。時間1，…，t₀+1可等距間隔開。應注意，儘管在此實例中，藉由因果卷積網路之預測為簡單起見與第一參數相關，但在變化形式中，預測可能關於在時間t ₀+1時之不同的第二參數。

圖9之因果卷積網路包含一編碼器單元901及一解碼器單元902。編碼器單元901接收第一參數之值[x ⁽²⁾,x ⁽²⁾,...,

]之集合，且自其產生各別中間值[z ⁽¹⁾,z ⁽²⁾,...,

]。其使用一或多個堆疊編碼器層903(「編碼器」)(兩個被繪示)來進行此操作。針對給定時間t之z ^<t>表示針對彼時間之鍵向量及值向量兩者，如下文所解釋。此處，術語「堆疊」意謂編碼器層以一序列配置，其中除了第一編碼器層之外的編碼器層中之每一者接收該序列之前一編碼器層之輸出。

解碼器單元902接收僅針對最近時間之

之值。其包含至少一個解碼器層(「解碼器」)904。更佳地，存在複數個堆疊解碼器層 904；展示兩個解碼器層。解碼器層904中之每一者接收由編碼器單元901之編碼器903之堆疊中的最後一者產生的中間值。儘管圖9(a)中未展示，但解碼器單元902可包括在解碼器層904之堆疊之後的輸出層，該等輸出層處理解碼器層904之堆疊的輸出以產生預測值

。輸出層可例如包括一線性層及一softmax層。

編碼器單元901之編碼器層903的可能形式如圖9(b)中所繪示。與在變壓器之已知編碼器單元中一樣，編碼器層903可包括自注意力層905。該自注意力層可操作如下。首先，x ⁽¹⁾,x ⁽²⁾,...,

中之每一者經輸入至一嵌入單元，以形成各別嵌入e<t>。

然而，在一已知變壓器中，使用一神經網路來執行輸入資料之嵌入，較佳地在圖9(a)之編碼器中，嵌入較佳藉由使針對給定時間t之x ^(t)乘以各別矩陣Et以形成作為e ^<t>=E ^t x ^t之嵌入來形成。Et具有尺寸d乘以p，其中p為第一參數之數目。換言之，若僅存在一個第一參數(亦即，x ^(t)為一單值而非一向量)，則Et為一向量，且e ^<t>與此向量成比例。d為一超參數(「嵌入超參數」)。其可經選擇為指示咸信至編碼器層903之輸入資料正編碼的製造程序之顯著特性的數目。Et之分量之值係在因果卷積網路之訓練期間反覆變化的變數之中。

接著，每一嵌入e ^<t>乘以自注意力層之一查詢矩陣Q以產生一各別查詢向量qt；每一嵌入亦乘以自注意力層之一查詢矩陣K以產生一各別查詢向量kt；且每一嵌入亦乘以自注意力層之一值矩陣V以產生一各別查詢向量vt。矩陣Q、K及V中之數值為在因果卷積網路之訓練期間反覆選擇的數值參數。對於每一值t，針對時間t'=0,…,t0中之每一者計算一記分S(t,t')。較佳地，僅針對t'

t定義記分(亦即，針對t'>t，S(t,t')為零)；此被稱為「遮蔽」且意謂針對一給定t之編碼器之輸出並不依賴於與稍後時間相關之資料，此為一種形式的「作弊」。可將記分S(t,t')計算為softmax(qt.kt'/g)，其中g為正規化因子，且自注意力層之輸出為{Σ_t' S(t,t')v _t')。亦即，自注意力層905具有針對每一第一時間t之各別輸出，其係各別總和值。彼總和值為由各別記分加權的針對每一較早第一時間之各別項在較早第一時間內的總和。

一般化而言，針對k=1,…,K，可存在K個查詢矩陣、鍵矩陣及值矩陣之集合{Q _k, K _k ,V _k}，其中k及K係整數變數，使得針對每一k存在輸出{Σ_t' S ^k(t,t')v ^k _t'}。此等輸出可經串連成單個向量，且藉由與矩形矩陣W相乘來降低維度。自注意力層之此形式被稱作「多頭」自注意力層。

編碼器層903進一步包括前饋層907(例如包含一或多個堆疊之完全連接層)，該前饋層由在因果卷積網路之訓練期間反覆地選擇之另外數值定義。前饋層907可接收作為單一串連向量之所有t0個輸入且將其一起處理；或其可順次地接收t0個輸入且個別地處理該等輸入。

視情況，編碼器層903可包括自注意力層905及前饋網路907周圍的信號路徑，且至自注意力層及至前饋網路907的輸入及輸出可藉由各別添加及正規化層906組合。

解碼器單元902之解碼器層904的可能形式如圖9(c)中所繪示。解碼器904之大部分層與上文針對編碼器層903所描述的相同，但解碼器層904進一步包括編碼器-解碼器注意力層908，該編碼器-解碼器注意力層執行類似於自注意力層905之操作的操作，但使用自編碼器單元901獲得之鍵向量及值向量(而非產生鍵向量及值向量本身)。特定言之，針對每一t之z<t>包括針對編碼器單元901之最後編碼器層903之頭部中之每一者的各別鍵向量及值向量。編碼器單元901之最後編碼器層903亦可為頭部中之每一者產生查詢向量，但此查詢向量通常不被供應至解碼器單元902。

解碼器層904包括一堆疊，該堆疊包含：作為輸入層之自注意力層905；編碼器-解碼器層908；及前饋網路907。較佳地，信號不僅穿過此等層而且圍繞該等層，藉由添加及正規化層906與該等層之輸出組合。

由於堆疊中之解碼器層904中之第一者僅接收

，亦即，與第一時間中之最後一者相關之資料，因此彼解碼器層904可省略自注意力層905以及緊接在其後的添加及正規化層906。然而，其仍較佳使用用於解碼器層之矩陣E<t>將

嵌入至嵌入式向量

中，之後將其傳輸至解碼器層904之編碼器-解碼器注意力層908。編碼器-解碼器注意力層之輸出的數目為t0。

應注意，注意力層905、908之矩陣E、Q、K、V以及前饋網路907之參數對於編碼器903及解碼器904中之每一者而言係不同的。此外，若自注意力層905、908具有多個頭部，則針對其中之每一者存在Q、K及V。所有此等值皆為變數，且可在因果卷積網路之訓練期間加以訓練。訓練演算法反覆地改變該等變數值以便增大指示因果卷積演算法以低誤差預測

之能力的成功函數之值。

值得注意的是，圖9之因果卷積網路並不採用遞回，而是利用注意力機制來摘錄第一參數之值之序列。為進行預測，經訓練因果卷積網路同時接收第一參數之值，但並不採用在先前預測反覆期間產生之隱藏狀態。此允許變壓器網路具有可並行化運算(使其適合於採用一或多個運算核心之運算系統，該一或多個運算核心在訓練及/或操作期間並行地操作以控制製造程序)。

由於在所有t0個第一時間針對輸入參數之值計算記分，因此自注意力層905可向此等第一時間中之任一者給出較高重要性(記分)，即使是相較於給出較低重要性(記分)的第一時間過去更遠的第一時間亦如此。此使得因果卷積網路有可能以複雜時間相依性捕捉重複圖案。應注意，使用變壓器之先前研究主要聚焦於自然語言處理(NLP)且已很少涉及與工業程序相關之時間序列資料。

圖9之因果卷積網路經設計為在給出可用歷史的情況下對第一參數(例如微影程序之疊對參數)進行多變量單步驟提前預測，而非進行多水平預報。此避免了誤差累積問題(例如，採用遞回之網路可在進行多個順次預測時累積誤差)，此係由於所有輸入值皆為自量測工具接收到之真實過去值。此可被視為類似於「教師強迫(teacher forcing)」-一種用於訓練遞回神經網路之技術，該技術使用來自先前時間步驟之實況作為輸入，而非神經網路在先前時間步驟之輸出。

應注意，在圖9之因果卷積神經網路中，輸入至解碼器單元902之所有資料最終自輸入至編碼器單元901之相同資料導出，且由於

經輸入至編碼器單元901及解碼器單元902兩者，因此存在一些冗餘。有可能省去編碼器單元901且使用解碼器單元來在t0個時間執行對第一參數之值的所有處理。此可能性用於圖10中所繪示之因果卷積網路之第四形式。

圖10之因果卷積網路採用複數個堆疊解碼器層。作為實例，兩個此類解碼器層1001、1002在圖10中展示。

對於給定時間步驟，第一(輸入)解碼器層1001針對t0個第一時間中之每一者接收第一參數之量測值[x ⁽¹⁾,x ⁽²⁾,...,

]，且產生對應的中間值[z ⁽¹⁾,z ⁽²⁾,...,

]。第二解碼器層1002針對t0個第一時間中之每一者接收中間值[z ⁽¹⁾,z ⁽²⁾,...,

]，且產生輸出，該輸出為包含在時間序列中接下來的時間t0+1時對第一參數之預測

的資料[x ⁽²⁾,x ⁽³⁾,...,

]。通常，此將為第一參數之接下來的量測值。儘管在此實例中，藉由因果卷積網路之預測為簡單起見與第一參數之未來值相關，但在變化形式中，預測可能關於在時間t ₀+1時之不同的第二參數。

每一解碼器層1001、1002可具有圖9(b)中所繪示之編碼器903之結構(例如，不包括如圖9(c)中之編碼器-解碼器注意力層)，且以與上文所解釋相同之方式操作，其例外之處在於通常遮蔽不用於每一解碼器層1001、1002之自注意力層中。亦即，針對所有第一時間對t,t'，以上文所描述之方式計算記分S(t,t')。

儘管圖10中未展示，但因果卷積網路可包括在解碼器層1001、1002之堆疊之後的輸出層，該輸出層處理解碼器層之堆疊之輸出以產生值[x ⁽²⁾,x ⁽³⁾,...,

]。輸出層可例如包括線性層及softmax層。

類似於圖9(a)之因果卷積網路，圖10之因果卷積網路同時評估t0個值之全集以便捕捉該等值之潛在關係，而非處置作為串流之第一參數之值。另外，其較佳不使用遞回；舉例而言，其並不儲存在預測

期間產生的值，且在針對任何稍後時間之預測之產生期間利用該等值。因此，避免了誤差累積問題。

每一解碼器層1001、1002之自注意力層905的矩陣E、Q、K、V及每一解碼器層1001、1002之前饋網路907的參數對於解碼器層 1001、1002中之每一者係不同的。所有此等值皆可在因果卷積網路之訓練期間加以訓練。訓練演算法反覆地改變該等變數值以便增大指示因果卷積演算法以低誤差預測

之能力的成功函數之值。

當因果卷積網路在使用中時，僅輸出

用以控制製造程序，且解碼器層1002可省略x ⁽²⁾,x ⁽³⁾,...,

之產生。然而，已發現第二解碼器單元在圖10之因果卷積網路之訓練期間產生x ⁽²⁾,x ⁽³⁾,...,

(亦即，對實際量測值x ⁽²⁾,x ⁽³⁾,...,

之近似)係有價值的(以改良對

之預測之準確度)。在此狀況下，用於訓練演算法中之成功函數包括量測對由解碼器層1002輸出之x ⁽²⁾,x ⁽³⁾,...,

之近似如何準確地再生經輸入至第一解碼器層1001之經量測x ⁽²⁾,x ⁽³⁾,...,

之項。

視情況，當圖9(a)及圖10之因果卷積網路用以控制製造程序時，可更新定義該等因果卷積網路之變數。此更新可在一定數目個時間步驟之後進行。

視情況，該更新不僅可包括定義因果卷積網路之變數，而且包括一或多個超參數。此等超參數可包括嵌入式超參數，及/或用於設定因果卷積網路之變數之訓練演算法之一或多個超參數。此等超參數可藉由貝氏最佳化程序設定，但替代地，可使用格點搜尋或隨機搜尋。貝氏最佳化程序係使用(最初)超參數之值之先前分佈來進行，該先前分佈在一系列更新步驟中經順次地更新以得到對應的順次後驗分佈。在每一更新步驟中，基於當前分佈選擇超參數之新值。分佈之更新係基於指示基於使用超參數之當前值來訓練因果卷積網路之預測成功的品質量度(例如成功函數)。使用貝氏最佳化程序之優勢在於，基於演進之後驗分佈，其為對超參數之告知選擇。不同於格點搜尋或隨機搜尋，其涉及界定先前分佈之基本步驟。

視情況，貝氏最佳化演算法之更新步驟及/或導出因果卷積網路之新值可與藉由當前形式之因果卷積網路對製造程序之控制同時地執行，使得相較於在執行更新步驟同時中斷製造程序之控制的情況，演算法可被提供更多時間來執行，且因此找到更好的最小值。

圖9及圖10之因果卷積網路之訓練可使用被稱作「早期停止」之技術，該技術係用以防止過度擬合之技術。模型在其經訓練時之效能經週期性地評估(例如，在單個更新步驟期間之間隔處)且判定指示預測準確度之參數是否已停止改良。當此判定為肯定的時，終止訓練演算法。

可用於本發明之實施例中的因果卷積網路之第五形式為如揭示內容以引用方式併入本文中之「An empirical evaluation of generic convolutional and recurrent networks for sequence modelling」(Bai等人(2018年))中所描述的「時間卷積神經網路」(TCN)。一般而言，時間卷積神經網路包括以堆疊(亦即，順次地)配置之複數個1維隱藏層，其中該等層中之至少一者為對前一層之擴張輸出進行操作之卷積層。視情況，該堆疊可包括作為卷積層之複數個順次層。如Bai等人在圖1中所展示，TCN使用因果卷積，其中在時間t時之輸出係自基於來自時間t及前一層中較早的元素之卷積而產生。每一隱藏層可具有相同長度，其中使用補零(在卷積層中，填補之量可為核心長度減去一)以保持層之輸出具有相同長度。因此，至每一層之輸出及輸入對應於第一時間中之各別時間。卷積之每一分量係基於核心(濾波器大小為k)，基於來自前一層之k值而產生。此等k值較佳在第一時間集合中以d-1個位置成對間隔開，其中d為擴張參數。

在TCN中，可在含有兩個分支之殘餘單元中採用層之堆疊：執行身分操作之第一分支，及包括層之堆疊之第二分支。該等分支之輸出係由產生殘餘單元之輸出之加法單元組合。因此，在神經網路之訓練期間訓練第二分支之可變參數以產生待對至殘餘單元之輸入進行的修改，從而產生殘餘單元之輸出。

圖11展示在存在10個第一參數之實例中比較如圖10中所展示之因果卷積網路(「變壓器」)與TCN因果卷積網路的效能的實驗結果。用於評估因果卷積網路之預測準確度的基線為使用EWMA模型進行之預測。圖11之豎軸係相較於EWMA模型之預測的因果卷積網路之平均改良。對於因果卷積網路中之每一者，在每100個時間步驟之後更新網路，且圖11之橫軸展示訓練集之長度(亦即，EWMA模型及因果卷積網路接收到第一參數之值所針對的第一時間之數目，以相對於下一時間例如在變壓器之狀況下預測t₀之值)。在變壓器之狀況下，當訓練集中之實例之數目為600或高於600時，採用早期停止進行訓練。

如圖11所示，當訓練集之長度為至少300時，變壓器之預測準確度優於EWMA模型及TCN模型兩者。TCN通常優於EWMA，但裕度較小，且存在訓練集之一對長度(200及800)，針對該等長度，TCN之成功程度略微低於EWMA模型。

執行對微影製造程序(批次)之1000個順次生產之產品的詳細分析。變壓器、TCN及EWMA模型各自使用長度為800的訓練集來訓練，且其對於第一參數中之一者之順次預測與實況值進行比較。此等指示十個第一參數中之一者傾向於下降，但具有很高的變化性。全部三種預測模型之預測都展現出此下降趨勢，但相比於實況值對於順次批次具有較低變化性。變壓器展現最高預測準確度，具有順次預測中之最低變化性。

因果卷積網路之另一形式為揭示內容以引用方式併入本文中之「Pervasive Attention：2D convolutional neural networks for sequence-to-sequence prediction」(M Elbayad等人(2018年))中所論述的2D卷積神經網路。與編碼器-解碼器結構形成對比，此採用2D卷積神經網路。

因果卷積網路之各種形式相較於已知控制系統具有若干優勢。其相較於EP3650939A1中所描述之RNN的一些優勢如下。

首先，諸如TCN之因果卷積網路之記憶體密集性較小。因此，其能夠接收特性化較大數目個批次(諸如至少100個批次)之輸入向量。因此，即時控制能夠採用較大量之經量測資料。出人意料地發現，使用此數目個批次導致對半導體製造程序之較佳控制。應注意，半導體製造行業中之常規程序控制仍係基於約最後3批晶圓之高級加權平均。雖然基於RNN之方法使得有可能檢查最後10至20個分批，但諸如TCN之因果卷積網路使得有可能分析可高於50個分批(諸如，100個分批或更高分批)之多個分批。應注意，此情形以顯著更複雜的網路架構為代價，該網路架構通常亦將需要較大訓練集。此意謂熟習此項技術者在不理解回顧多於10至20個分批會有任何價值的情況下，將不會看到產生此成本的價值，且因此將不會考慮在程序控制環境中使用諸如TCN之因果卷積神經網路。當使用比簡單加權移動平均(WMA)濾波更多的神經網路時，使用之分批愈多愈好，此係因為此會增加將發生某一效應之機會。此等發生事件教示系統如何作出回應。

其次，在RNN中，RNN之輸出在每一時間經回饋作為至針對接下來的時間至RNN之輸入，此時RNN亦接收到與彼時間相關之經量測資料。此意謂關於遙遠過去之資訊在其已傳遞通過RNN大量次數之後將被RNN接收。此導致被稱為「消失梯度問題」的現象(類似於多層感知器中遇到之類似問題)，其中關於遙遠時間之資訊歸因於節點中之雜訊而丟失。相比之下，在因果卷積網路中，針對任何時間之輸入向量包括針對較早時間所量測之第一參數值，因此此資料可以未受損形式用於因果卷積網路。另外，視情況可包括與不同參數相關之輸入節點，該等參數可來自不同外部源(此類不同量測器件)或可自另一網路輸出。此意謂很久以前發生的重要的過去事件並不必須經由在先前時間之節點之輸出行進至因果卷積神經網路。此防止了時間延遲及此資訊歸因於雜訊而丟失之任何機率。

因此，隨著根據本發明之因果卷積網路在初始時間開始操作，可用於其之歷史持續地增長。通常，輸入向量之每一分量(輸入值)有至少一個可變參數，直至最大值，使得可用於因果卷積神經網路之參數之數目亦增長。換言之，用於定義神經網路之參數空間增長。

因果卷積網路之另一優勢在於，歸因於其前饋架構，其可在極快速地運行之系統中實施。相比之下，實務上已發現RNN係緩慢的，使得對半導體製造程序之控制延遲。因此，出人意料地，已發現使用因果卷積網路可能的效能增強係優良的。

最後，關於半導體程序之資訊可視情況自因果卷積神經網路，而非基於其經訓練以產生之第二參數值，基於由該神經網路輸出之值而非第二預測來獲得。亦即，神經網路可經訓練以預測第二參數之值，且此訓練使得神經網路學習將關於製造程序之決定性資訊編碼為隱藏變數。此等隱藏變數亦可用以產生關於第三參數(不同於第二參數)之資訊，例如藉由將一或多個隱藏值饋送至經訓練以產生第三參數之預測之另一自適應組件。舉例而言，在上文所描述之類型之編碼器-解碼器系統中，其中編碼器及解碼器一起經訓練以預測第二參數之值，編碼器之輸出可(例如僅)用作至自適應模組之輸入以用於產生關於第三參數之資訊。此自適應模組可視情況與編碼器-解碼器並行地訓練或在之後經訓練。

通用定義

儘管可在本文中特定地參考在IC製造中微影裝置之使用，但應理解，本文中所描述之微影裝置可具有其他應用。可能之其他應用包括製造整合式光學系統、用於磁疇記憶體之導引及偵測圖案、平板顯示器、液晶顯示器(LCD)、薄膜磁頭等。

儘管在本文中可對在檢測或度量衡裝置之內容背景中的本發明之實施例進行特定參考，但本發明之實施例可用於其他裝置中。本發明之實施例可形成遮罩檢測裝置、微影裝置或量測或處理諸如晶圓(或其他基板)或遮罩(或其他圖案化器件)之物件的任何裝置之部分。亦應注意，術語度量衡裝置或度量衡系統涵蓋術語檢測裝置或檢測系統，或可被術語檢測裝置或檢測系統取代。如本文所揭示之度量衡或檢測裝置可用以偵測基板上或內之缺陷及/或基板上之結構的缺陷。在此實施例中，舉例而言，基板上之結構之特性可關於結構中之缺陷、結構之特定部分之不存在或基板上之非所需結構之存在。

儘管特定地參考「度量衡裝置/工具/系統」或「檢測裝置/工具/系統」，但此等術語可指相同或類似類型之工具、裝置或系統。例如包含本發明之一實施例之檢測或度量衡裝置可用以判定實體系統(諸如基板上或晶圓上之結構)之特性。例如包含本發明之一實施例之檢測裝置或度量衡裝置可用以偵測基板之缺陷或基板上或晶圓上之結構之缺陷。在此實施例中，實體結構之特性可關於結構中之缺陷、結構之特定部分之不存在或基板上或晶圓上之非所需結構之存在。

儘管上文可特定地參考在光學微影之內容背景中對本發明之實施例之使用，但應瞭解，本發明在內容背景允許之情況下不限於光學微影可用於其他應用(例如壓印微影)中。

雖然上文所描述之目標或目標結構(更一般而言，基板上之結構)為出於量測之目的而特定設計及形成的度量衡目標結構，但在其他實施例中，可對作為在基板上形成之器件之功能性部分的一或多個結構量測所關注屬性。許多器件具有規則的類光柵結構。如本文中所使用之術語結構、目標光柵及目標結構並不要求已特定地針對正被執行之量測來提供該結構。關於多敏感度目標實施例，不同產品特徵可包含具有變化之敏感度(變化之節距等)的許多區。另外，度量衡目標之節距p接近於散射計之光學系統之解析度極限，但可比藉由微影程序在目標部分C中製造之典型產品特徵之尺寸大得多。實務上，可使目標結構內之疊對光柵之線及/或空間包括在尺寸上類似於產品特徵之較小結構。

在以下經編號條項之清單中揭示了本發明之另外實施例：

1.一種用於組態一半導體製造程序之方法，該方法包含：獲得由與一半導體製造程序相關聯之至少一個第一參數之複數個值構成的一輸入向量，該第一參數之該複數個值係基於在該半導體製造程序之複數個各別第一操作時間執行的各別量測；使用一因果卷積神經網路以基於該輸入向量在不早於該等第一時間之最近一次的一第二操作時間判定至少一個第二參數之一預測值；及使用該因果卷積神經網路之一輸出來組態該半導體製造程序。

2.如條項1之方法，其中該第二操作時間比該等第一時間晚。

3.如條項1或條項2之方法，其中該因果卷積神經網路按次序包含經組態以接收該輸入向量之一輸入層、一或多個卷積層及經組態以輸出該第二參數之該預測值之一輸出層。

4.如任一前述條項之方法，其中該因果卷積神經網路包含至少一個注意力層，該至少一個注意力層將一逐元素乘法應用於該等輸入值或應用於基於該等輸入值之各別經編碼值。

5.如條項4之方法，其中第一值分割成複數個群組，該複數個群組各自包括多個輸入值，且存在以一階層式結構配置之複數個注意力層，該複數個注意力層中之一第一注意力層經配置以將該等輸入值之每一群組或基於該等輸入值之該群組中之該等輸入值的各別經編碼值乘以一各別注意力係數，以獲得對應的注意力值。

6.如條項5之方法，其中一第二注意力層經配置以將由該第一注意力層獲得之該等注意力值乘以一第二注意力係數以產生第二注意力值。

7.如條項1之方法，其中該因果卷積神經網路包括複數個卷積層，該複數個卷積層經組態使得至每一卷積層之輸入為該等層中之前一層之一輸出，該每一層之每一輸出係與該複數個第一時間中之一各別時間相關聯，且對於每一卷積層，係藉由基於一核心將一卷積應用於該前一層之與不遲於該等第一時間中之該各別時間之對應第一時間相關聯的複數個輸出而產生。

8.如條項7之方法，其中對應於該前一層之該複數個輸出的該等第一時間根據一擴張因子在該等第一時間內間隔開。

9.如條項7或條項8之方法，其中該複數個卷積層之堆疊包括複數個順次卷積層。

10.如任一前述條項之方法，其中該因果卷積神經網路包含至少一個注意力層，該至少一個注意力層在接收到該等第一時間中之每一者之基於針對該等第一時間之該第一參數之該等值的一或多個值後可操作，以針對該等第一時間之至少最近時間產生針對該等第一時間中之每一者的一各別記分，且產生至少一個總和值，該至少一個總和值為由該各別記分加權的針對對應第一時間之一各別項在該等第一時間內的一總和。

11.如條項10之方法，其對於該等第一時間之每一對t,t'(或視情況僅對於t'不大於t的對)，經組態以產生一各別記分S(t,t')，且對於每一第一時間t，產生由該各別記分S(t,t')加權的一各別項v _t在該等第一時間t'內的至少一個總和值{Σ_t' S(t,t')v _t'}。

12.如條項10或11之方法，其中由自注意力層接收之該複數個值中之每一者用以產生一各別嵌入e ^t，且對於該自注意力層之一或多個頭部單元中之每一者：該嵌入e ^t分別乘以用於該頭部之一查詢矩陣Q以產生一查詢向量q _t，乘以該頭部之一鍵矩陣K以產生一鍵向量k _t，且乘以該頭部之一值矩陣V以產生一值向量v _t，且對於該等第一時間之一對t,t'，該記分為針對該對第一時間中之一者之該查詢向量q _t與針對該等第一時間中之另一者之該鍵向量k _t'的一乘積之一函數，且該項為針對該對第一時間中之該一者之該值向量v _t。

13.如任一前述條項之方法，其經組態以在順次第二時間基於針對各別第一時間集合之各別輸入向量而判定該第二參數之該預測值，且不使用在該等第二時間中之一者時對該第二參數之該值之該判定期間產生的任何數值來判定針對該等第二時間中之另一者之該第二參數之該值。

14.如任一前述條項之方法，其中對於每一第一時間，存在複數個該等第一參數及/或該因果卷積神經網路用以判定複數個該等第二參數中之每一者在該第二時間的一各別預測值。

15.如任一前述條項之方法，其中該第二參數與該第一參數相同。

16.如條項15之方法，其中該第一參數之該等第一值包括使用一第一取樣方案獲得之第一值，該方法進一步包含使用該第一參數之該預測值以判定該半導體製造程序中之程序步驟之一後續操作的一控制配方。

17.如條項16之方法，其進一步包含：-基於使用相較於該第一取樣方案在空間上較不密集且較頻繁的一第二取樣方案之量測而獲得一第三參數之一值；及-使用該第三參數之該值-以判定該程序步驟之該後續操作之該控制配方。

18.如條項17之方法，其中基於該程序步驟之該後續操作處之量測而獲得該第三參數之該值。

19.如條項17至18中任一項之方法，其中該半導體製造程序為圖案化基板之一逐批程序，且其中該第一取樣方案具有每5至10個分批之一量測頻率，且該第二取樣方案具有每分批一個之一量測頻率。

20.如任一前述條項之方法，其中該第一參數包含一曝光放大參數且該程序步驟包含微影曝光。

21.如任一前述條項之方法，其中該第一參數及該第二參數中之至少一者為一重疊參數或一對準參數。

22.如任一前述條項之方法，其中該第二參數為該半導體製造程序之一模型之一參數，該方法進一步包括採用該模型中之該經預測第二參數，該半導體製造程序之該組態係基於模型之一輸出而執行。

23.如條項17之方法，其中該模型為一按指數律成比例之加權移動平均模型，且該第二參數為該按指數律成比例之加權移動平均模型之一平滑因子。

24.如條項1至21中任一項之方法，其中該第二參數指示在該半導體製造程序中發生一故障事件之發生率，該組態該半導體製造程序包含使用該因果卷積神經網路之該輸出以觸發用於該半導體製造程序中之設備的維護。

25.一種半導體製造程序，其包含用於根據如任一前述條項之方法預測與該半導體製造程序相關聯之一參數之一值的一方法。

26.一種微影裝置，其包含：-一照明系統，其經組態以提供一投影輻射光束；-一支撐結構，其經組態以支撐一圖案化器件，該圖案化器件經組態以根據一所要圖案圖案化該投影光束；-一基板台，其經組態以固持一基板；-一投影系統，其經組態以將該經圖案化光束投影至該基板之一目標部分上；及-一處理單元，其經組態以：根據如條項1至24中任一項之方法預測與該半導體製造程序相關聯之一參數之一值。

27.一種電腦程式產品，其包含用於致使一通用資料處理裝置執行如條項1至24中任一項之一方法之步驟的機器可讀指令。

雖然上文已描述本發明之特定實施例，但應瞭解，可以與所描述方式不同之其他方式來實踐本發明。以上描述意欲為繪示性，而非限制性的。因此，對於熟習此項技術者而言將顯而易見，可在不脫離下文所闡明之申請專利範圍之範疇的情況下對所描述之本發明進行修改。