有時候用戶電腦出了問題,要怪的不是微軟,而是所謂的“軟錯誤”和“硬錯誤”。
《連線》雜志近日刊載文章稱,對于普通的電腦用戶來說,“軟錯誤”的世界是一個黑暗區(qū)域,下一代電腦芯片的科學(xué)家很擔(dān)心這個問題,因其與功率有關(guān);而與“軟錯誤”相比,硬件廠商提及“硬錯誤”問題的頻率甚至更低。以下是
騰訊科技帶來的文章全文:
在一年以前,斯蒂芬·杰基薩(Stephen Jakisa)遇到了一些嚴(yán)重的電腦問題。最初的問題是在他玩第一人稱射擊游戲《戰(zhàn)地3》(Battlefield 3)時發(fā)生的,但很快甚至就連他的網(wǎng)絡(luò)瀏覽器也出了問題,每30分鐘左右都會自動退出一次,而他甚至都能在自己的電腦上安裝這個軟件。
情況變得非常糟糕,以至于杰基薩——他的專業(yè)是程序員,而不是技術(shù)菜鳥——原以為他的電腦可能是中了病毒,或者可能是電腦里有一些故障軟件。但他決定讓自己的朋友艾恩·斯蒂凡諾維奇(Ioan Stefanovic)幫忙看一下,后者恰好正在寫一篇有關(guān)電腦可靠性的博士論文。
略微檢查以后,杰基薩和斯蒂凡諾維奇找到了問題的源頭:杰基薩電腦的存儲芯片出了問題。由于在出現(xiàn)問題以前的六個月時間里,杰基薩的電腦一直都運行良好,因 此在斯蒂凡諾維奇讓他運行一個專用的存儲分析工具以前,杰基薩從來都沒有懷疑過會是硬件問題。“我真的是傻掉了。”他說道。“如果這個問題是發(fā)生在一點兒 都不懂電腦的普通人身上,那么這人肯定會被徹底難倒。”杰基薩拿出了損壞的存儲模塊,然后他的電腦自此以后一直都運行良好。
當(dāng)電腦崩潰時,通常是故障軟件的問題。但在過去幾年時間里,電腦科學(xué)家已經(jīng)開始將審視的目光投向硬件故障。他們認(rèn)識到,與許多人所知道的相比,另一種類型的電腦問題出現(xiàn)的頻率要更高一些。沒錯,那就是硬件故障。
芯片廠商會在發(fā)貨以前努力確保其產(chǎn)品經(jīng)過測試,可以正常運行。但是,它們不愿談?wù)撘粋事實,那就是讓芯片能隨著時間的推移仍舊可以良好地運行是個難題。從二 十世紀(jì)七十年代以來,這個行業(yè)就已經(jīng)知道,某些晦澀難解的硬件問題會導(dǎo)致微處理器晶體管出故障;而隨著晶體管尺寸的變小,這種問題變得更加容易出現(xiàn)。業(yè)內(nèi) 人士將此稱為“軟錯誤”(soft error)問題,也就是指由構(gòu)成地球低強度背景輻射的核粒子引起的芯片內(nèi)部電荷貯存狀態(tài)的改變,這種改變雖然不會對芯片產(chǎn)生有形損壞,但將產(chǎn)生錯誤數(shù)據(jù) 并造成設(shè)備的臨時故障。晶體管的尺寸不斷變小令每個晶體管本身對背景輻射的影響更加敏感,而芯片復(fù)雜性的大幅度提高也意味著芯片上某一部分遭受一個軟錯誤 的影響的機率大幅提高。
但是,這些所謂的“軟錯誤”只是問題的一部分內(nèi)容。在過去五年 時間里,一些研究人員已經(jīng)對某些非常巨大的電腦系統(tǒng)進行了嚴(yán)格的檢查;他們認(rèn)識到,在許多情況下,我們所使用的電腦硬件確實就是會損壞。熱量或是制造缺陷 會導(dǎo)致部件隨著時間的推移而磨損,導(dǎo)致電子從一個晶體管滲漏到另一個晶體管,或是導(dǎo)致旨在傳輸電流的芯片出現(xiàn)故障。這些就是所謂的“硬錯誤”(hard error)。
“軟錯誤”的力量
正在設(shè)計下一代電腦芯片的科學(xué)家很擔(dān)心“軟錯誤”的問題,這是因為一個非常重大的因素:功率。在下一代超級電腦開始上線的情況下,它們將擁有更多的芯片和更小的部件。隨著晶體管變得越來越小,這些電腦將需要越來越多的能量,才能阻止粒子對其造成影響。
這個問題與基礎(chǔ)物理學(xué)有關(guān)。當(dāng)芯片廠商沿著越來越小的電線將電子傳輸?shù)叫酒瑫r,電子會逃逸,就像水滴從破損的軟管中噴發(fā)出來那樣。電線的體型越小,逃逸的電子就會越多,讓所有功能都運行正常所需要消耗的能量也就越多。
這個問題是如此棘手,以至于英特爾正在與美國能源部及其他政府機構(gòu)聯(lián)手合作,希望能加以解決。英特爾使用下一代的5納米半導(dǎo)體制造工藝,在2020年底以前建造超級電腦的“大腦”,允許運算能力將比今天最頂級的電腦都高出1000倍。但就現(xiàn)在而言,看起來這些超級電腦系統(tǒng)的能耗也將是非常高的。
“我們擁有一條道路建造那種超級電腦,而不必?fù)?dān)心能耗問題。”英特爾高性能計算生態(tài)系統(tǒng)的首席技術(shù)官馬克·西格爾(Mark Seager)說道。“但如果你希望我們解決能耗的問題,那么就是遠遠超出我們的技術(shù)路線圖了。”
對于象杰基薩那樣的普通電腦用戶來說,“軟錯誤”的世界是一個黑暗區(qū)域。芯片廠商不喜歡談?wù)撍麄兊漠a(chǎn)品出故障的頻率——它們認(rèn)為這種信息是一種自有的秘密 ——而普通用戶也很難看到好的研究報告。經(jīng)常發(fā)生的情況是,科技公司會禁止他們自己的客戶談?wù)撚布收下实膯栴}。“那是業(yè)內(nèi)人士積極研究的一個領(lǐng)域。”西 格爾說道。“在外部我們不會過多地討論這個問題,因為那是一個非常敏感的主題。”
硬錯誤
“軟錯誤”是個問題,但硬件廠商提及另一個問題的頻率甚至更低。據(jù)多倫多大學(xué)的一個研究人員團隊稱,當(dāng)電腦的DRAM(動態(tài)隨機存取存儲器)出故障時,更有可能是硬件老化或是制造缺陷(也就是“硬錯誤”)的問題,而不是“軟錯誤”的問題。
在2007年,多倫多大學(xué)教授比安卡·施羅德(Bianca Schroeder)曾到過谷歌的數(shù)據(jù)中心,在那里她收集到一批寶貴的信息,其內(nèi)容與谷歌特制的Linux系統(tǒng)的故障頻率有關(guān)。她發(fā)現(xiàn)的故障數(shù)量遠遠超出預(yù)期;而且,大約8%的谷歌存儲芯片需為90%的問題負(fù)責(zé)。有些時候,每幾分鐘就會發(fā)生一次故障。
在進行過更加嚴(yán)密的檢查以后,施羅德的團隊發(fā)現(xiàn)那些故障看起來是集中在電腦存儲芯片的特定區(qū)域中的,而且傾向于在年頭更老的電腦中發(fā)生。他們所發(fā)現(xiàn)的問題是“硬錯誤”,而不是“軟錯誤”;而且,這些問題的嚴(yán)重性要遠遠超出多倫多大學(xué)研究人員的預(yù)期。
施羅德及其團隊在2009年發(fā)表了一篇有關(guān)他們在谷歌數(shù)據(jù)中心所發(fā)現(xiàn)的問題的論文,隨后又在今年早些時候發(fā)表了第二篇論文,其內(nèi)容是發(fā)現(xiàn)IBM“藍色基因”(Blue Gene)系統(tǒng)和加拿大超級電腦SciNet所使用的存儲芯片也存在類似的問題。
在所有這些電腦系統(tǒng)中,DRAM故障率基本上都是相同的,2012年論文的作者之一艾恩·斯特凡諾維奇說道。另一份由AMD的研究人員發(fā)表的論文也顯示,在DRAM存儲芯片中,“硬錯誤”出現(xiàn)的頻率要高于“軟錯誤”。但跟英特爾一樣,AMD的研究人員也并未發(fā)布有關(guān)一般用途微處理器SRAM(靜態(tài)隨機存儲器)的任何研究結(jié)果。
“這不是個新問題。”AMD這篇論文的作者之一、AMD可靠性架構(gòu)師維拉斯·斯里德蘭(Vilas Sridharan)說道。“DRAM設(shè)備中的錯誤首次被發(fā)現(xiàn)是在1979年。但是,到今天我們?nèi)栽趯W(xué)習(xí)。”
全球最大的DRAM廠商三星的一名發(fā)言人表示,該公司“在這個課題上沒有任何能夠分享的具體數(shù)據(jù)”。
施羅德和斯蒂凡諾維奇稱,芯片廠商需要更嚴(yán)肅地對待“硬錯誤”的問題。當(dāng)今的高端芯片會使用各種技巧——比如說是錯誤糾正代碼等——來補救“軟錯誤”,但在處理“硬錯誤”的問題上則做得不夠好。
而且,這所導(dǎo)致的問題比大多數(shù)人所認(rèn)識到的問題都更多一些。高端超級電腦可能擁有錯誤糾正代碼來修復(fù)“軟錯誤”,但對個人電腦來說則并非如此。“大多數(shù)移動設(shè)備和消費者級別的筆記本和臺式機都沒有錯誤糾正代碼,其部分原因在于錯誤模型一直都是DRAM中的錯誤主要是由‘軟錯誤’造成的。”斯蒂凡諾維奇說道。
由于自身具備電腦技巧的緣故,斯蒂凡諾維奇時不時地都會被邀請去診斷奇怪的電腦故障。他表示,在過去一年時間里,自己至少發(fā)現(xiàn)了三個與DRAM損壞有關(guān)的問題。
在兩年以前,斯蒂凡諾維奇曾路過鄧達斯廣場——這個廣場就像是紐約時代廣場,只不過不那么有名——這個廣場地處多倫多的中心地帶,到處都遍布閃光的招牌和旅 客。抬頭看去,他看到有一個招牌變成了藍光——那是電腦崩潰的確切信號。他用自己的黑莓手機對著那個招牌拍下了一張模糊不清的照片,記下了錯誤代碼。他不 是很肯定問題的源頭,但從顯示屏所顯示出的奇偶校驗誤差來看,他認(rèn)為可能是電腦顯卡內(nèi)存出了問題。