1. 建立通用的高精度3D閃存器件可靠性模型
基于多種3D閃存芯片的測試數據集,采用機器學習方法,將3D閃存器件中存在的多維噪音干擾和多層結構差異因素作為輸入,建立通用的高精度3D閃存器件可靠性模型。首先,采取適用于擬合光滑曲線的淺層神經網絡,建立閃存單元閾值電壓分布模型。該模型能夠提供更精準的糾錯碼譯碼信息和讀參考電壓,從而提高數據讀取速度和降低比特錯誤率。然后,考慮到3D閃存堆疊層次間原始誤碼率分布呈現非平滑的鋸齒狀分布,采用基于梯度提升決策樹的集成學習方法建立閃存單元原始比特錯誤率分布模型。該模型有助于發掘和預測閃存單元原始比特錯誤率變化趨勢和分布特征,從而為設計可靠性優化技術提供依據。
通過分析影響3D閃存閾值電壓分布的相關因素,包括數據保存時間、堆疊層、可編程擦寫次數(Program/Erase, P/E)、讀干擾和狀態內差異,如圖1所示。利用神經網絡模型對3D閃存閾值電壓分布模型進行預測,將P/E次數記為pe、數據保存時間記為dr,讀次數記為rd和字線記為wl作為神經網絡的輸入,閾值電壓分布的離散點作為輸出,如圖2所示。提出的建模方法相比傳統的建模方法能夠提升預測精度,如圖3和圖4所示。
圖1 3D NAND閃存閾值電壓分布的干擾與差異因素
圖2 3D NAND閃存閾值電壓分布神經網絡模型
圖3 預測值和實際值對比
圖4 提出的方案和傳統方案的精度對比
2. 高性能LDPC糾錯碼
對于3D閃存而言,隨著數據保存時間和可編程擦寫周期的增加,原始誤碼率較高,引起較多的譯碼迭代次數,引起高的譯碼延遲問題。為了降低譯碼迭代次數和譯碼延遲,提出比特錯誤感知的自適應碼率的LDPC方案。首先基于FPGA硬件測試平臺,研究三維電荷俘獲型TLC閃存比特錯誤特征。然后利用這些特征研究強糾錯能力的LDPC碼糾錯方案,根據比特錯誤率的變化自適應地選擇合適的碼率進行譯碼,同時根據比特錯誤的非對稱性調整譯碼似然比信息的權重值,以提升LDPC譯碼糾錯性能,如圖5和圖6所示。
圖5 不同保存時間譯碼迭代次數的變化
圖6 不同LLR權重對譯碼迭代次數的影響
技術優勢
1. 3D閃存器件可靠性模型
現有方法使用高斯分布、冪函數等數學模型適配真實的閃存單元閾值電壓和原始比特錯誤率分布??紤]到3D閃存器件具有復雜多樣的可靠性特征,該類模型難以應對多維干擾因素下和不同閃存芯片的實際分布形態,因此面臨通用性差、精度低等挑戰。本成果基于機器學習方法建立的3D閃存器件可靠性模型兼具通用性和高精度,能夠應對閃存技術的快速發展和不同閃存芯片之間的特性差異。
2. LDPC糾錯碼
LDPC碼有高糾錯能力的優勢,但是直接用于3D閃存糾錯會面臨挑戰。一方面,由于LDPC碼本身的軟判決譯碼特性,需要在兩個交叉的閾值電壓分布之間多次施加讀參考電壓獲取高精度的LLR信息,引起讀延遲問題。另一方面,若獲取的LLR信息精度較低,在譯碼過程中,會被送入變量節點和校驗節點更新算法中進行頻繁地迭代更新以提升精度,引起譯碼延遲問題,降低了3D閃存存儲系統讀性能。本成果利用3D閃存的錯誤特征優化LDPC譯碼算法,譯碼過程考慮錯誤率等因素對譯碼糾錯性能的影響,能夠提升LDPC譯碼糾錯性能,從而容忍較多的比特錯誤和降低譯碼迭代延遲,保證可靠性的同時提升3D閃存存儲系統讀性能。
性能指標
1. 3D閃存器件可靠性模型
所提出的閃存單元閾值電壓分布模型和原始比特錯誤率分布模型均能實現1.0e-4或以下的平均預測偏差;與現有最優模型相比,閾值電壓分布模型最高實現4.9倍精度提升(或在同等精度下降低73%計算開銷),原始比特錯誤率分布模型最高實現8.7倍精度提升。
2.LDPC糾錯碼
所提出的3D閃存錯誤特征感知的LDPC碼糾錯方案利用比特錯誤率的變化自適應調整LLR信息以提升LDPC碼的糾錯性能和降低譯碼迭代次。相比傳統LDPC糾錯方案,當原始誤碼率達到1.0e-2時,使用優化后LDPC碼碼率為0.80時,譯碼迭代次數能夠降到10次以下。
研發階段
3D閃存已經成為消費及工業類電子產品中的主要存儲器件,并在數據中心和企業服務器中得到越來越廣泛的應用。數據存儲需求持續快速增長,對3D閃存器件的密度和可靠性不斷提出更高要求。通用的高精度3D閃存器件可靠性模型與高性能糾錯碼技術是應對以上挑戰的關鍵,對于閃存芯片制造商、閃存控制器和設備廠商具有重要意義。
掃碼關注,查看更多科技成果