🔒 19
💬 5
sh19910711"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"
2026/04/18 14:39
sotonohitokunGB10でQwen27BとBonsai×10で動かした。QW分解+RAG→Bonsai並列→QW取りまとめでフローが直列になるので体感は遅い上に微妙な結果(調整必須)俺の利用法では調整コストで断念/記事後段的利用ならGB10×2なら理論値Qw+65並列位迄
2026/04/19 04:34
kyahi227どうせグラボ1枚なら8B 1bit x8のアンサンブルとdense 8B q4 x1の比較がないと意味ないだろ
2026/04/19 05:47
kei_1010参考になる
2026/04/19 06:26
otoan52重ねて効果がある閾値がありそうだよなー。より良い正解を選ぶなら効果あるけど、不正解から正解を選ぶ場合は不正解が足を引っ張るイメージがある
2026/04/19 08:03