Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

FranckDernoncou·Hacker News·Community·May 15, 2026

Fast, lossless LLM inference via dual-view diffusion decoding. - chiennv2000/orthrus

Related Articles