improved flux attention qkv unpacking by bssrdf · Pull Request #1306 · leejet/stable-diffusion.cpp

bssrdf · 2026-03-01T15:37:54Z

This PR improves performance a bit for flux models by getting rid of some ggml_cont ops.

RTX 4090

FLUX.2 Klein 4B (CFG 1, 4 steps, bf16)	master	This PR
512x512	7.8it/s	8.2it/s
1024x1024	2.5it/s	2.57it/s

improved qkv speed by removing cont op

aaf479a

bssrdf changed the title ~~improved flux attention speed by removing cont op for qkv~~ improved flux attention qkv unpacking by removing cont op Mar 1, 2026

bssrdf changed the title ~~improved flux attention qkv unpacking by removing cont op~~ improved flux attention qkv unpacking Mar 1, 2026

loci-dev mentioned this pull request Mar 2, 2026

UPSTREAM PR #1306: improved flux attention qkv unpacking auroralabs-loci/stable-diffusion.cpp#71

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

improved flux attention qkv unpacking#1306

improved flux attention qkv unpacking#1306
bssrdf wants to merge 1 commit intoleejet:masterfrom
bssrdf:improve-flux-attn-qkv

bssrdf commented Mar 1, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

bssrdf commented Mar 1, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant