PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation

Transformers operate as horizontal token-by-token scanners; at each generation step, attending to an ever-growing sequen...
🔒 0
💬 1
misshiki階層型自己回帰モデル。垂直・マルチ解像度のコンテキストスキャンと潜在ストリーム階層構造を採用。粗い潜在のみ更新する再帰生成でKVキャッシュ削減。長文・複数クエリで優位。
2026/04/08 19:42