- YRCloudFile 軟件
- 高性能分布式文件存儲(chǔ) YRCloudFile
- 焱融 DataInsight
存儲(chǔ)挑戰(zhàn)
GPU 顯存瓶頸突出
在大模型推理中,KVCache 規(guī)模快速擴(kuò)大,致使 GPU 顯存占用率急劇攀升。然而,顯存容量有限,一旦不足,推理將出現(xiàn)卡頓甚至中斷。通常情況下,GPU 顯存無法單獨(dú)擴(kuò)展,只能通過增加整卡來獲取更多顯存資源,這將導(dǎo)致成本顯著上升并造成資源浪費(fèi)。
高并發(fā)處理能力不足
在推理請(qǐng)求高峰時(shí)段,數(shù)據(jù)處理需求急劇增加。傳統(tǒng)架構(gòu)難以高效應(yīng)對(duì)海量并發(fā)請(qǐng)求,導(dǎo)致推理任務(wù)積壓,響應(yīng)延遲上升、吞吐能力下降,影響整體效率,限制服務(wù)的可擴(kuò)展性與用戶體驗(yàn)。
存儲(chǔ)性能瓶頸
模型推理過程需頻繁訪問大體量參數(shù)文件與中間計(jì)算結(jié)果,尤其在生產(chǎn)環(huán)境中,海量實(shí)時(shí)數(shù)據(jù)需迅速注入模型完成計(jì)算。若底層存儲(chǔ)系統(tǒng)吞吐不足、I/O 延遲較高,將直接影響模型加載與數(shù)據(jù)讀寫效率,成為限制推理速度的核心瓶頸。
解決方案
焱融高性能分布式文件存儲(chǔ) YRCloudFile 率先支持 KVCache 特性。通過“GPU 顯存 + YRCloudFile 高性能分布式文件存儲(chǔ)”的組合方式,YRCloudFile KVCache 將 KV 緩存從 GPU 顯存擴(kuò)展至高性能共享存儲(chǔ),用戶無需修改應(yīng)用架構(gòu),即可實(shí)現(xiàn) GPU 對(duì) KVCache 空間的共享訪問。該方案不僅突破了 GPU 顯存瓶頸,顯著擴(kuò)展了可承載的 KV 鍵值對(duì)規(guī)模,還大幅提高了 KV 命中率,同時(shí)有效降低首 token 耗時(shí)(TTFT),滿足更高并發(fā)、更長上下文的推理需求,全面提升大模型推理的效率與響應(yīng)能力。
焱融存儲(chǔ)技術(shù)團(tuán)隊(duì)基于公開數(shù)據(jù)集和業(yè)界公認(rèn)的測試工具,在 NVIDIA GPU 硬件平臺(tái)模擬真實(shí)推理業(yè)務(wù),對(duì) YRCloudFile KVCache 進(jìn)行了性能驗(yàn)證。理想情況下,TTFT 應(yīng)穩(wěn)定在 2 秒以內(nèi),這表明用戶體驗(yàn)良好。一旦 TTFT 超過 2 秒,用戶體驗(yàn)將顯著下降。實(shí)測結(jié)果表明,YRCloudFile KVCache 在響應(yīng)延遲與并發(fā)處理能力這兩個(gè)衡量用戶體驗(yàn)的關(guān)鍵指標(biāo)上均實(shí)現(xiàn)了明顯優(yōu)化。在 TTFT 穩(wěn)定控制在 2 秒以內(nèi)的前提下,支持的并發(fā)數(shù)相比原生 vLLM 方案提高了 3.2 倍。
方案優(yōu)勢
領(lǐng)先的技術(shù)架構(gòu)
焱融 YRCloudFile KVCache 方案構(gòu)建了與 DeepSeek 一致的推理存算架構(gòu),率先實(shí)現(xiàn) DeepSeek 級(jí)推理能力,為用戶提供對(duì)標(biāo)行業(yè)一線的高性能推理體驗(yàn)。
加速 AI 推理
提升用戶體驗(yàn)通過高速讀寫和低延遲訪問能力,有效緩解顯存瓶頸,加快 KVCache 的加載與處理速度,大幅提升推理過程中的響應(yīng)效率,顯著縮短模型輸出時(shí)間,優(yōu)化整體用戶使用體驗(yàn)。
支持更高并發(fā)
穩(wěn)定支撐大規(guī)模服務(wù)可承載大規(guī)模 KV 讀寫并發(fā)訪問,保障推理任務(wù)在高并發(fā)場景下依然保持低延遲與高吞吐,有效支撐復(fù)雜業(yè)務(wù)調(diào)度需求,提升系統(tǒng)穩(wěn)定性。
提升 GPU 利用率
優(yōu)化推理成本通過將 KV 緩存外置至高性能存儲(chǔ)系統(tǒng),既避免了堆疊 GPU 擴(kuò)展顯存的高昂成本,又釋放了 GPU 顯存資源,使計(jì)算資源得到充分利用,同等數(shù)量的 GPU 能支持更多并發(fā)和更長上下文的推理請(qǐng)求,實(shí)現(xiàn)更具性價(jià)比的 AI 推理。