
DeepSeekがGPUの制限を突破するのに使われたPTX。その制約が突破の原動力になった - 中華IT最新事情
DeepSeekはトレーニングコストが従来の1/10。それには冗長計算の8割をカットするという努力が必要だった。米国政府は中国に対してGPUの制限をかけ、それをDeepSeekチームは突破をしたと量子位が報じた。 冗長計算を8割カットしたD...

isrcNVIDIAはH100の通信部分を改造して帯域制限を行い、データを1/2しか送受信できないようにした/DeepSeekはPTXを使って通信系のコードを書き、通信速度をあげて、最高性能のH100に匹敵する演算速度を使って開発した。
2025/04/03 10:33★

misshikiDeepSeek開発チームは、CUDA(プログラミング言語に相当)では実現できない通信最適化のため、PTX(Parallel Thread Execution、アセンブラに相当)を用い、H800の通信速度を向上。H100に匹敵する演算速度を引き出してDeepSeekを開発。
2025/04/03 16:20★

toaruRこれ、NVIDIA側から指南されてたりせんのかな?(・ω・)
2025/04/03 17:18

roshi元々は投資ファンドだったのかー。
2025/04/03 17:25

qpci32siekqd後から更に最適化進めたのをNVIDIAが出したので外部がブラックボックス頑張って触っても…って感じがする。
2025/04/03 17:57★

crimson_diamond???「……reg .u32 r1, r2, r3; mov.u32 r1, 0x0; add.u32 r2, r1, 0x1;…」雷電「むぅ、あれが世に聞く?!」虎丸「知っているのか雷電!」観客「やべえ、レジスタ管理からだと?」「SPILLも使ってねぇ!」桃「Triton...」??? 「何っ?!」
2025/04/03 18:52

hiroomi”純粋なAI研究者の集団だけでなく、投資系のサイエンティスト、エンジニアがいたということが大きいのかもしれない。 まさに「イノベーションは業界の外で起こる」格言、そのままのことが起きた。”
2025/04/03 19:18★

Phenomenonイノベーションにはアセンブラも役に立つんだな
2025/04/03 20:19

xsdeやろうと思えばこういう環境は作れたかもしれないのに日本でこういうことをやる人がでてこないのはなぜなのだろう。才能と熱意とお金と時間が一つのところに集まる機会がなかなかないというか。
2025/04/03 20:51

ene0kcalPTXを学んだ生成AIを使えば制約突破なんてちょちょいのちょいだと思われる(そんなことはないだろうが)ので、そういう段階をたぶん踏んでるよね。
2025/04/03 23:01

hamamuratakuoDeepSeekは、トレーニングコストを従来の1/10に抑えた大規模言語モデルを開発。その背景には、冗長な計算処理を80%削減する最適化と、NVIDIAのCUDAでは不可能な低レベルのGPU制御を可能にする「PTX」を用いた独自手法がある。
2025/04/04 04:44

hrnbskgc昔PTXでGPU向けアルゴリズムを最適化してる人がいて、今何してんだろ?と調べたらOpenAIに転職してた。
2025/04/04 11:04