硬件可靠性測試設計實例分析
以行業標準或者國家標準為基礎的可靠性測試。比如電磁兼容試驗、氣候類環境試驗、機械類環境試驗和安規試驗等。
從硬件角度出發,可靠性測試分為兩類:
· 以行業標準或者國家標準為基礎的可靠性測試。比如電磁兼容試驗、氣候類環境試驗、機械類環境試驗和安規試驗等。
· 企業自身根據其產品特點和對質量的認識所開發的測試項目。比如一些故障模擬測試、電壓拉偏測試、快速上下電測試等。
下面分別介紹這兩類可靠性測試。
1 基于行業標準、國家標準的可靠性測試方法
產品在生命周期內必然承受很多外界應力,常見的應力有業務負荷、溫度、濕度、粉塵、氣壓、機械應力等。各種行業標準、國家標準制定者給出了某類產品在何種應用環境下會存在多大的應力等級,而標準使用者要根據產品的應用環境和對質量的要求選定相應的測試條件即應力等級,這個選定的應力等級實質上就是產品測試規格。
在產品的測試階段,我們必須在實驗室環境下對足夠的測試樣本一一施加相應的應力類型和應力等級,考察產品的工作穩定性。對于通信設備而言,常見的測試項目至少包括電磁兼容試驗、安規試驗、氣候類環境試驗和機械環境試驗,而上述四類測試項目還包含很多測試子項,比如氣候類環境試驗還包括高溫工作試驗、低溫工作試驗、濕熱試驗、溫度循環試驗等。此類測試項目還有很多,這里就不做詳細介紹。總的而言,所有的測試項目都屬于規格符合性測試(即PASS或者FAIL測試),試驗的目的都是模擬產品在生命周期內承受應力類型和應力等級,考察其工作穩定性。
2 企業設計的可靠性測試方法
由于網絡產品的功能千差萬別,應用場合可能是各種各樣的,而與可靠性測試相關的行業標準、國家標準,一般情況下只給出了某類產品的測試應力條件,并沒有指明被測設備在何種工作狀態或配置組合下接受測試,因此在測試設計時可能會遺漏某些測試組合。比如機框式產品,線卡種類、線卡安裝位置、報文類型、系統電源配置均可靈活搭配,這涉及到的測試組合會較多,這測試組合中必然會存在比較極端的測試組合。再如驗證該機框的系統散熱性能,*差的測試組合是在散熱條件機框上滿配*大功率的線卡板;如果考慮其某線卡板低溫工作性能,比較極端的組合時是在散熱條件*好的機框上配置*少的單板且配置的單板功耗*小,并且把單板放置在散熱*好的槽位上。
總之,在做測試設計時,需要跳出傳統測試規格和測試標準的限制,以產品應用的角度進行測試設計,保證產品的典型應用組合、滿配置組合或者極端測試組合下的每一個硬件特性、硬件功能都充分暴露在各種測試應力下,這個環節的測試保證了,產品的可靠性才得到保證。
以下舉兩個例子來說明如何根據產品特點設計出可靠性測試方法。
2.1 實例一:包處理器外掛緩存(Buffer)的并行總線測試
為了應對網絡的突發流量和進行流量管理,網絡設備內部的包處理器通常都外掛了各種隨機訪問存儲器(即RAM)用來緩存包。由于包處理和RAM之間通過高速并行總線互連,一般該并行總線的工作時鐘頻率可能高達800Mhz,并且信號數量眾多,拓撲結構復雜,在產品器件密度越來越高的情況下,產品很可能遇到串擾、開關同步噪音(SSN)等嚴重的信號質量問題,針對上述可能遇到的問題,我們需進行仔細的業務設計,讓相應硬件電路的充分暴露在不利的物理條件下,看其工作是否穩定。
串擾,簡單的來說是一種干擾,由于ASIC內部、外部走線的原因,一根信號線上的跳動會對其他信號產生不期望的電壓噪聲干擾。為了提高電路工作速率和減少低功耗,信號的幅度往往很低,一個很小的信號干擾可能導致數字0或者1電平識別錯誤,這會對系統的可靠性帶來很大影響。在測試設計時,需要對被測設備施加一種特殊的業務負荷,讓被測試總線出現大量的特定的信號跳變,即讓總線暴露在盡可能大的串擾條件下,并用示波器觀察個總線信號質量是否可接受、監控業務是否正常。以16位并行總線為例,為了將這種串擾影響極端化,設計測試報文時將16根信號中有15根線(即攻擊信號線Agressor)的跳變方向一致,即15根信號線都同時從0跳變到1,同時讓另一根**擾的信號線(即Victim)從1下跳到0,讓16根線都要遍歷這個情況。
開關同步噪音也是RAM高速并行接口可能出現的我們所不期望的一種物理現象。當IC的驅動器同時開關時,會產生瞬間變化的大電流,在經過回流途徑上存在的電感時,形成交流壓降,從而產生噪音噪聲(稱為SSN),它可能影響信號接收端的信號電平判決。這是并行總線非常惡劣的一種工作狀態,對信號驅動器的高速信號轉變能力、驅動能力、電源的動態響應、電源的濾波設計構成了嚴峻的考驗。為了驗證產品在這種的工作條件下工作是否可靠,必須被測設備(DUT)加上一種特殊的測試負荷,即特殊的測試報文。
舉例:
如果被測總線為16位寬,要使所有16跟信號線同步翻轉,報文內容應該為:
FFFF 0000 FFFF 0000
如果被測總線為32位寬,要使所有32跟信號線同步翻轉,測試報文內容應該為:
FFFF FFFF 0000 0000 FFFF FFFF 0000 0000
如果被測總線為64位寬,要使所有64根信號線同步翻轉,測試報文內容應該為:
FFFF FFFF FFFF FFFF 0000 0000 0000 0000 FFFF FFFF FFFF FFFF 0000 0000 0000 0000
如果報文在DUT內部的業務通道同時存在上述位寬的總線,業務測試必須加載上述的報文,看DUT UUT在每種報文下工作是否正常,同時在相應總線上進行信號測試,看信號是否正常。
2.2 實例二:熱測試
熱測試通過使用多通道點溫計測量產品內部關鍵點或關鍵器件的溫度分布狀況,測試結果是計算器件壽命(如E-Cap)、以及產品可靠性指標預測的輸入條件,它是產品開發過程中的一個重要的可靠性活動。
一般而言,熱測試主要是為了驗證產品的熱設計是否滿足產品的工作溫度范圍規格,是實驗室基準測試,這意味著為了保證測試結果的一致性,必然對測試環境進行嚴格要求,比如要求被測設備在一定范圍內無熱源和強制風冷設備運行、表面不能覆蓋任何異物。但實際上很多產品的工作環境跟上述測試環境是有差異的:
? 有些產品使用時可能放在桌子上,也可能掛在墻上,而這些設備基本上靠自然散熱,安裝方法不同會直接影響到設備的熱對流,進而影響到設備內部的溫度分布。因此,測試此類設備時必須考慮不同的安裝位置,在實驗室條件把設備擺放在桌子熱測試通過,并不代表設備掛在墻上熱測試也能通過。
? 有些網絡設備在網吧行業用得比較多,幾臺設備疊在一起使用比較常見,做類似產品的熱測試時,必須考慮到產品在此情況下熱測試是否符合要求。
? 一些機框式設備,由于槽位比較多,風道設計可能存在一定的死角。如果被測對象是一塊業務板,而這塊可以隨便插在多個業務卡槽位,熱測試時必須將被測板放在散熱*差的槽位,并且在其旁邊槽位插入規格所能支持的大功耗業務板,后讓被測單板輔助單板和滿負荷工作,在這種業務配置條件下進行熱測試。
3 總結
針對不同的產品形態,硬件可靠性測試項目可能有所差異,但是其測試的基本思想是一致的,其基本的思路都是完備分析測試對象可能的應用環境,在可能的應用環境下會承受可能工作狀態包括極限工作狀態,在實驗室環境下制造各種應力條件、改變設備工作狀態,設法讓產品的每一個硬件特性、硬件功能都一一暴露在各種極限應力下,遺漏任何一種測試組合必然會影響到對產品的可靠性。