摘 要:本文中,我们在检测产品制造缺陷的功能测试背景下,引入了一种可确保用于纳米技术领域中设备的产品质量方法学。这种可以检测延迟缺陷的测试方法学,成为测试方法学的下一代标准,它可以解决在临界值下,动态缺陷引起的延迟缺陷测试问题。该方法学除了可确保产品质量之外,同样可降低测试成本并缩短量产时间。
引言
多年以来,数字电路的测试模型同技术保持着同样的发展速度。第一个大的改变就是从基于逻辑仿真测试向量、在芯片的I/O端进行的功能性测试,转向基于扫描式的测试。随着设计越来越复杂,要实现有效地检测出制造缺陷的功能测试也相应地越来越困难,并且也越来越昂贵。一般来说,功能测试拥有较低的固定逻辑(Stuck-at)故障测试覆盖率,并需要投入一定量的人力资源。解决功能测试局限的方法是采用面向测试的设计(DFT)方法,比如扫描式测试以及针对固定逻辑故障模型的自动测试图形生成(ATPG)方法。一般来说,较高的固定逻辑故障覆盖是保证产品质量的最低要求。不过,还要注意的是,并非所有的公司都从功能测试转向扫描式ATPG测试—一些公司拥有附加资源,能够获得创建功能测试所需的额外支持,并且能保证足够的质量。
除了固定故障测试之外,IDDQ测试(可衡量处于静态的器件的耗散电流)也成为可确保产品质量的有效方式。在130纳米以上,人们通常认为固定故障以及IDDQ测试就足以保证输出产品的质量。这是因为通过先前的技术所发现的故障在本质上大部分都是静止的,而且静态故障更容易通过固定故障测试被发现并被检测到。此外,静态电流非常低,以至于IDDQ对检测多数非静态故障来说已经足够有效。
然而,很多公司发现,对于130纳米的产品来说,情况发生了变化。在此几何尺寸及其以下,布线密度、信号完整性以及高频需求达到了临界值。这些曾表现为静态的缺陷将变成动态的缺陷。在很多情况下,这些节点在检测时将达到正确的逻辑水平,但转换速度要比该器件的功能时钟频率所要求的要慢。延迟缺陷的例子包括电阻短路、电阻开路以及信号完整性方法学。同样的,在130纳米及以下产品中,IDDQ测试对微小的延迟缺陷也不是很有效,因为设计的平均泄漏电流在上升,从而限制了测量的完成。所以固定故障测试及IDDQ测试只用于捕捉静态及总的延迟缺陷,他们需要其他能够有效检测延迟缺陷的测试方法来补充。
因此,半导体产业必需拥有这种可以检测延迟缺陷的测试方法,这也是测试方法学的下一个标准。我们把该类方法学定义为纳米测试,并将在此检验该方法学在技术上的特征。
纳米测试方法学
纳米测试方法学最基本的部分就是补充了用于检测延迟缺陷的扫描式延迟测试。延迟测试也称为AC测试、动态测试或全速测试。延迟测试包括两种基本类别:转换故障(transition
fault)和路径延迟(Path delay)。转换故障方法学是固定故障方法学的延伸,用于检测电路中各个门的输入/输出端的慢上升和慢下降(slow-to-rise
及 slow-to-fall)故障。转换故障测试是用于检测制造缺陷的主要方法,而这些缺陷能够导致电路性能下降,或者在某些环境下出现短路径问题。路径延迟主要用于通过测试选择的、速度分级的功能频率或多种频率下的关键路径,来确定设计的速度。
之所以是转换故障测试经常用于测试制造缺而不是路径延迟测试陷,主要在于要通过后者瞄准设计中所有可能的路径几乎是不可能的。转换故障模式提供每一个门的输入/
输出,并通过检查两个方向上的跳变以确保观察所得到的准确度。该方法也许并不能通过某一测试识别出某一延迟故障,但是它能提供系统化的方法学来确保完整的结构化测试。
延迟测试一般比固定故障测试复杂的多,需要在目标节点处设置一个初始值,促使该节点出现跳变,然后再观察是否会出现该跳变。因为每一测试都需要满足更多要求,延迟测试一般比固定故障测试包含更多测试模式,应用更多测试,需要测试人员投入更多时间以及更多缓冲时间用来设置目标测试模式。这也意味着添加(或者转变为)延迟测试相对于简单的静态测试增加了制造成本。这些增加的测试时间和数据量也带动了对测试数据压缩的需求以降低测试成本。如果不降低测试成本,那么应用延迟测试的成本可能会超过预期通过提升产品质量而带来的收益。
纳米技术同时也带动了对自动诊断方法的需求,以获得准确的量产时间。比如,如果缺陷密度在功能尺寸缩减的时候还保持稳定,那么产量将会下降,而成本会上升。为保持平衡,我们必需降低缺陷密度。由此,提高故障分析是必需的。同样,改善诊断能力也是必需的,而不再仅仅是定位更为困难的延迟故障:所有的故障,静态故障和动态故障,在越来越新的技术下面也表现得越来越复杂。传统的固定故障诊断方法此时并不像他们在诊断较大的技术节点时那么有效了。
图1 电阻电桥响应及可测试性(略)
延迟测试行为
为了理解延迟测试的需要,应用如下示例:英特尔公司的工程师们必需分析一个逻辑电路的输出节点的行为,以了解电阻桥路的不同值。该输出电压特征如图1所示。三种不同的行为表现出一个桥路电阻函数。如图1,对于高电阻值来说,该电路没有故障,对于低电阻值来说,该电路有一个真(静态)逻辑故障。其中电阻桥路引发了一个延迟故障(图1中的实线)。
检测延迟故障
图1中同样展示了在检测延迟故障时各种方法的不同表现。传统的固定故障静态测试对于处理无故障或者有逻辑故障的电路非常实用。虽然传统的固定故障测试能够检测逻辑故障,但是它检测不到时序故障,除非额外的延迟是实际的(总的延迟检测——在本例中,超过18ns)。为了检测本质上并非总的时序故障,必需使用延迟测试。
然而,并非所有的延迟测试都同样有效。一些延迟测试方法学只是假设标称上的延迟。这些测试检测到其中的一些延迟,但是因为没有途径的准确时序,这些方法也许错过了更小的延迟故障。因此,必需确保延迟测试是有效的--也就是说,这些方法的覆盖测率所报告的内容是基于准确测试之上的。我们定义“实时延迟测试”为一种针对某一跳变故障测试覆盖率,而努力实现最高可能测试效率的延迟测试方法。
实时延迟测试需要突出的后布线时序
成功的延迟测试受三个方面因素的影响:高跳变故障覆盖率、压缩测试模式以及后布线时序。跳变故障测试覆盖是与固定故障覆盖不一样的。固定故障覆盖一般都能达到99.5%,并且一般都以比较好的面向设计测试(DFT)技术为高。因为跳变故障比起静态故障(如前所述)更难以检测。因此,相对于静态故障ATPG,这些需要判定延迟测试的附加值任务导致产生了更多的测试模式。
为了实现较高的延迟测试覆盖率,用户必须访问并控制系统时钟。该要求使得覆盖率非常依赖设计,一般来说,覆盖率从60%到90%不等。为了实现较高的跳变故障测试覆盖率,ATPG需要支持几项技术,包括宽面启动(broadside
launch)、上次偏移启动(launch on last shift)、多周期路径(multicycle paths)、多时钟域等等。
跳变故障模式的数量也许是固定故障测试模式数量的2到5倍。其压缩能力由ATPG运算法则决定,并且各个供应商之间也有所不同。另外一个需要考虑的因素是跳变测试如何很好地控制固定故障。如果高的固定故障覆盖率要求在延迟测试中加入静态测试,以便能最大的提升静态故障覆盖率,那么跳变测试的固定故障覆盖率会影响整个(固定+延迟)故障测试量。
高的跳变故障覆盖率并不足以保证产品质量,而测试效率中的时序概念是至关重要的。也就是说,该测试需要在最有可能的时间点上检查信号的出现情况。
延迟方法学使用与时序无关的模型,或使用以时序为导向的模型。在与时序无关的模型中,ATPG就会生成门跳变或路径跳变,而不必知道实际电路的延迟。当测试向量被用于测试仪时,跳变启动和捕获约束必须相当保守地实施。时钟时序被不断地收紧,以找到一个好的
“标称上的”部分时序,然后从某种程度上缓和了测试余量。但这是一个依赖测试工程师的经验和知识的手动过程。它在某种程度上取决于以经验为主来获得实际上的时序,表现为“标称上”部分示例的了解程度。同时,该过程也暴露出,如果存在着多周期和/或非功能路径,那么运行时序测试会比功能测试慢很多。作为一种可替代的方法,正如本文中所定义的实时延迟测试,最开始是IBM开发出来的,该方法使用来自综合或者时序分析工具的现实时序和延迟模式。这些工具作为输入部分被接受:
技术单元端-到-端延迟模型
互连延迟计算器
设计时序约束
工作条件(如温度和电压等)
它们还会产生门级、一般用于“标准延迟格式”(SDF)的门级延迟仿真的延迟估计。使用SDF格式允许延迟ATPG选择最优路径以传输跳变,并且自动调整响应的启动和捕获约束。
当ATPG工具已经访问该电路的准确时序,它能生成延迟测试引出端时序,该时序允许测试发现最长路径以完成该测试。另外可选择的是,该工具可以使用用户建议的时序(比如功能时序),并且知道如果使用这些时序,某些路径可能不会完成检查。该工具还可以通过这些路径获得一个X值,或者将尝试保护沿着这些路径跳变内部的时钟域。因为许多设计中使用DFT技术,该技术能够实现用少得多的外部时钟端驱动多个内部时钟域。一般来说,一个单一的时钟会根据不同的时序要求来为多个时钟域提供时钟。没有时序数据,测试将自然地安排时间以允许最慢的域被测试。如果有时序数据,最快的域将能根据其时序来测试。与此同时,较慢的域则在更为宽松的时序下测试,这样允许每个域共享一个普通的测试时钟,并在最优的时序下进行测试。
数据压缩
正如先前讨论的一样,延迟测试模式下测试向量数是固定故障测试的2到5倍。随着测试向量的增长,需要测试仪具有更多缓冲空间以完成测试,并且需要更长的时间来完成制造测试。这使得测试成本以如下一种或多种方式增长:
每一器件上分配的自动测试设备(ATE)成本随着测试时间的延长而增加。
必须的测试设备所需的缓冲空间要求更多昂贵的ATE或者更多的资金投入以增加ATE缓冲能力。
降低测试的要求也许可以让它们与可获得的ATE缓冲空间保持一致--这导致了引入产品质量的降低,并且相应地也会增加成本。
为了同时解决数据量以及测试时间上的问题,测试工程师们以及测试结构师们已经开发出这些技术,以使用片上硬件和测试仪硬件。这些硬件可压缩测试激励以及响应向量,并且将其应用到被测芯片上。
测试压缩建立在最初用于开发逻辑内建自动测试的技术上。在LBIST中,通过线性反馈移位寄存器(LFSR)生成线性伪随机向量,该向量同步应用在被测电路上。来自电路的结果值通过另外一个称为“多输入信号寄存器”的LFSR捕获。在这里,测试响应被压缩成为一个信号,这个信号用来检测生产的芯片是“好”或者“坏”。一般来说,尽管LBIST实施中积极使用了测试点,但LBIST测试覆盖率并没有确定性的ATPG测试覆盖率来的高。这是由于某些电路的随机电阻所导致。弥补两者之间的空白的ATPG向量是必须的,这样需要通过内建自测试生成起始的测试向量。
建立BIST技术的测试数据压缩方法称为On-Product-MISR (OPMISR),其中标准的ATPG技术主要用于生成测试。该测试激励向量保存在ATE中,但结果却通过片上MISR捕获。该方法结合了确定性的测试生成优势以及较低的测试向量存储需求。更多数据压缩能通过压缩On-Product-MISR
Plus(OPMISR+)中展示的激励向量获得。在本例中,扫描扇出电路用于电路的输入端,能够使测试向量比原来缩减200倍,并且测试时间也比原来减少了130倍。
一般来说,ATPG不支持包含未知值的测试压缩信号,因为X值不能被测试设备所测量。对于一个被测试的器件,可能包含很多的X源,同时由于过高的图形扇出率,从而使得不能达到所需的高测试覆盖率。为了减轻这样的影响,具有特别目的的通道掩码逻辑(channel
masking logic)将被添加到测试压缩结构中,该结构能够通过用已知值取代未知值,在序列控制下来阻止捕获未知值。
在选择压缩解决方案时,如下几点至关重要:
对指定设计的最大压缩可能
物理设计、布线以及面积的最小影响
以不能过度缩减非模型化缺陷检测能力的方式来处理未知(X)响应的能力
确保解决方案能够很好地解决诊断问题。
诊断故障
实现延迟测试能力以确保产品质量及使用数据压缩使测试成本最小化是纳米测试方法学的关键部分。然而,除非用户能够按期交付产品,并保证产品具有合理的利润率,否则整个问题不会得到根本解决。这就是自动而且加速缺陷识别的诊断技术成为纳米测试关键部分的原因所在。诊断工具用于如下两类主要模式:
在产品生产早期发现芯片失效,诊断能够极大地缩短量产时间。
在芯片通过测试仪时失效以及用户能够判断为什么它们失效的时候,也许能够通过调整生产线来避免以后的故障,从而提升成品率。
研究掌握芯片失败原因上的时间直接影响到上市时间和获益时间。极端来讲,产品也许永远都不可能上市,也许永远都不可能获益。对诊断以及失效分析周期的改善也是本产业的紧急需求。我们经常听到需要好几周时间才能找到测试失效的根本原因。为了解失效的根本原因,化费了几周的时间,这样的抱怨是很普遍的。分析失效根本原因的时间必须从好几周时间缩减到几天之内。然而,除非这里有一个精确、自动的方法能够把测试器失效转移到芯片故障实际发生或可能发生的物理位置上,否则,这也是不可行的。当我们进入纳米技术时代,更多的故障持续地从固定故障行为中脱离出来。如果用户现在在确定故障位置上有困难,那么今后他们只会有着更多的困难。
在选择诊断解决方案时,准确的诊断标注、自动执行、高标注度和高标注准确度以及分辨率都应当考虑在内。除此之外,该解决方案需要支持较广范围内的故障模型化能力,该能力支持延迟缺陷、搭桥短路以及其他很多兼容的故障机制的诊断。生成失效诊断测试向量的能力同样是很重要的,它可以帮助诊断生产过程中产生的不易进行分辨的问题。这对于未来的超密设计而言尤为关键,因为越来越多的失效甚至会导致扫描链失效。有效的诊断工具肯定具有合理的能力来诊断故障,即使出现断裂的扫描链也是如此——这包括能够生成额外测试以帮助确定扫描链断裂的位置。
结论
正如本文中所描述的一样,纳米测试方法学综合了延迟测试、测试压缩以及自动精确诊断。使用纳米技术测试方法学来设计芯片,使这些公司能够应对这些测试挑战,并且能够获得积极的经济效益。
|