stable-diffusion-webui/modules/sd_hijack.py

import math
import os
import sys
import traceback
import torch
import numpy as np
from torch import einsum
from torch.nn.functional import silu

import modules.textual_inversion.textual_inversion
from modules import prompt_parser, devices, sd_hijack_optimizations, shared
from modules.shared import cmd_opts
from modules import sd_hijack_clip, sd_hijack_open_clip

from modules.sd_hijack_optimizations import invokeAI_mps_available

import ldm.modules.attention
import ldm.modules.diffusionmodules.model
import ldm.models.diffusion.ddim
import ldm.models.diffusion.plms
import ldm.modules.encoders.modules

attention_CrossAttention_forward = ldm.modules.attention.CrossAttention.forward
diffusionmodules_model_nonlinearity = ldm.modules.diffusionmodules.model.nonlinearity
diffusionmodules_model_AttnBlock_forward = ldm.modules.diffusionmodules.model.AttnBlock.forward

# new memory efficient cross attention blocks do not support hypernets and we already
# have memory efficient cross attention anyway, so this disables SD2.0's memory efficient cross attention
ldm.modules.attention.MemoryEfficientCrossAttention = ldm.modules.attention.CrossAttention
ldm.modules.attention.BasicTransformerBlock.ATTENTION_MODES["softmax-xformers"] = ldm.modules.attention.CrossAttention

# silence new console spam from SD2
ldm.modules.attention.print = lambda *args: None
ldm.modules.diffusionmodules.model.print = lambda *args: None

def apply_optimizations():
    undo_optimizations()

    ldm.modules.diffusionmodules.model.nonlinearity = silu

    if cmd_opts.force_enable_xformers or (cmd_opts.xformers and shared.xformers_available and torch.version.cuda and (6, 0) <= torch.cuda.get_device_capability(shared.device) <= (9, 0)):
        print("Applying xformers cross attention optimization.")
        ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.xformers_attention_forward
        ldm.modules.diffusionmodules.model.AttnBlock.forward = sd_hijack_optimizations.xformers_attnblock_forward
    elif cmd_opts.opt_split_attention_v1:
        print("Applying v1 cross attention optimization.")
        ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_v1
    elif not cmd_opts.disable_opt_split_attention and (cmd_opts.opt_split_attention_invokeai or not torch.cuda.is_available()):
        if not invokeAI_mps_available and shared.device.type == 'mps':
            print("The InvokeAI cross attention optimization for MPS requires the psutil package which is not installed.")
            print("Applying v1 cross attention optimization.")
            ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_v1
        else:
            print("Applying cross attention optimization (InvokeAI).")
            ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_invokeAI
    elif not cmd_opts.disable_opt_split_attention and (cmd_opts.opt_split_attention or torch.cuda.is_available()):
        print("Applying cross attention optimization (Doggettx).")
        ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward
        ldm.modules.diffusionmodules.model.AttnBlock.forward = sd_hijack_optimizations.cross_attention_attnblock_forward


def undo_optimizations():
    ldm.modules.attention.CrossAttention.forward = attention_CrossAttention_forward  # this stops hypernets from working
    ldm.modules.diffusionmodules.model.nonlinearity = diffusionmodules_model_nonlinearity
    ldm.modules.diffusionmodules.model.AttnBlock.forward = diffusionmodules_model_AttnBlock_forward


class StableDiffusionModelHijack:
    fixes = None
    comments = []
    layers = None
    circular_enabled = False
    clip = None

    embedding_db = modules.textual_inversion.textual_inversion.EmbeddingDatabase(cmd_opts.embeddings_dir)

    def hijack(self, m):
        if type(m.cond_stage_model) == ldm.modules.encoders.modules.FrozenCLIPEmbedder:
            model_embeddings = m.cond_stage_model.transformer.text_model.embeddings
            model_embeddings.token_embedding = EmbeddingsWithFixes(model_embeddings.token_embedding, self)
            m.cond_stage_model = sd_hijack_clip.FrozenCLIPEmbedderWithCustomWords(m.cond_stage_model, self)
        elif type(m.cond_stage_model) == ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder:
            m.cond_stage_model.model.token_embedding = EmbeddingsWithFixes(m.cond_stage_model.model.token_embedding, self)
            m.cond_stage_model = sd_hijack_open_clip.FrozenOpenCLIPEmbedderWithCustomWords(m.cond_stage_model, self)

        self.clip = m.cond_stage_model

        apply_optimizations()

        def flatten(el):
            flattened = [flatten(children) for children in el.children()]
            res = [el]
            for c in flattened:
                res += c
            return res

        self.layers = flatten(m)

    def undo_hijack(self, m):
        if type(m.cond_stage_model) == sd_hijack_clip.FrozenCLIPEmbedderWithCustomWords:
            m.cond_stage_model = m.cond_stage_model.wrapped

            model_embeddings = m.cond_stage_model.transformer.text_model.embeddings
            if type(model_embeddings.token_embedding) == EmbeddingsWithFixes:
                model_embeddings.token_embedding = model_embeddings.token_embedding.wrapped
        elif type(m.cond_stage_model) == sd_hijack_open_clip.FrozenOpenCLIPEmbedderWithCustomWords:
            m.cond_stage_model.wrapped.model.token_embedding = m.cond_stage_model.wrapped.model.token_embedding.wrapped
            m.cond_stage_model = m.cond_stage_model.wrapped

        self.apply_circular(False)
        self.layers = None
        self.clip = None

    def apply_circular(self, enable):
        if self.circular_enabled == enable:
            return

        self.circular_enabled = enable

        for layer in [layer for layer in self.layers if type(layer) == torch.nn.Conv2d]:
            layer.padding_mode = 'circular' if enable else 'zeros'

    def clear_comments(self):
        self.comments = []

    def tokenize(self, text):
        _, remade_batch_tokens, _, _, _, token_count = self.clip.process_text([text])
        return remade_batch_tokens[0], token_count, sd_hijack_clip.get_target_prompt_token_count(token_count)


class EmbeddingsWithFixes(torch.nn.Module):
    def __init__(self, wrapped, embeddings):
        super().__init__()
        self.wrapped = wrapped
        self.embeddings = embeddings

    def forward(self, input_ids):
        batch_fixes = self.embeddings.fixes
        self.embeddings.fixes = None

        inputs_embeds = self.wrapped(input_ids)

        if batch_fixes is None or len(batch_fixes) == 0 or max([len(x) for x in batch_fixes]) == 0:
            return inputs_embeds

        vecs = []
        for fixes, tensor in zip(batch_fixes, inputs_embeds):
            for offset, embedding in fixes:
                emb = embedding.vec
                emb_len = min(tensor.shape[0] - offset - 1, emb.shape[0])
                tensor = torch.cat([tensor[0:offset + 1], emb[0:emb_len], tensor[offset + 1 + emb_len:]])

            vecs.append(tensor)

        return torch.stack(vecs)


def add_circular_option_to_conv_2d():
    conv2d_constructor = torch.nn.Conv2d.__init__

    def conv2d_constructor_circular(self, *args, **kwargs):
        return conv2d_constructor(self, *args, padding_mode='circular', **kwargs)

    torch.nn.Conv2d.__init__ = conv2d_constructor_circular


model_hijack = StableDiffusionModelHijack()


def register_buffer(self, name, attr):
    """
    Fix register buffer bug for Mac OS.
    """

    if type(attr) == torch.Tensor:
        if attr.device != devices.device:

            if devices.has_mps():
                attr = attr.to(device="mps", dtype=torch.float32)
            else:
                attr = attr.to(devices.device)

    setattr(self, name, attr)


ldm.models.diffusion.ddim.DDIMSampler.register_buffer = register_buffer
ldm.models.diffusion.plms.PLMSSampler.register_buffer = register_buffer
Update to cross attention from https://github.com/Doggettx/stable-diffusion #219 2022-09-10 12:06:19 +03:00			`import math`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00			`import os`
			`import sys`
			`import traceback`
			`import torch`
			`import numpy as np`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00			`from torch import einsum`
Merge branch 'master' into stable 2022-10-03 00:31:19 +03:00			`from torch.nn.functional import silu`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`import modules.textual_inversion.textual_inversion`
hypernetwork training mk1 2022-10-07 23:22:22 +03:00			`from modules import prompt_parser, devices, sd_hijack_optimizations, shared`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`from modules.shared import cmd_opts`
			`from modules import sd_hijack_clip, sd_hijack_open_clip`

Add check for psutil 2022-10-11 06:55:48 +03:00			`from modules.sd_hijack_optimizations import invokeAI_mps_available`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00
			`import ldm.modules.attention`
Complete cross attention update 2022-09-13 14:29:56 +03:00			`import ldm.modules.diffusionmodules.model`
move DDIM/PLMS fix for OSX out of the file with inpainting code. 2022-11-11 18:20:18 +03:00			`import ldm.models.diffusion.ddim`
			`import ldm.models.diffusion.plms`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`import ldm.modules.encoders.modules`
Complete cross attention update 2022-09-13 14:29:56 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`attention_CrossAttention_forward = ldm.modules.attention.CrossAttention.forward`
			`diffusionmodules_model_nonlinearity = ldm.modules.diffusionmodules.model.nonlinearity`
			`diffusionmodules_model_AttnBlock_forward = ldm.modules.diffusionmodules.model.AttnBlock.forward`
Complete cross attention update 2022-09-13 14:29:56 +03:00
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`# new memory efficient cross attention blocks do not support hypernets and we already`
			`# have memory efficient cross attention anyway, so this disables SD2.0's memory efficient cross attention`
			`ldm.modules.attention.MemoryEfficientCrossAttention = ldm.modules.attention.CrossAttention`
			`ldm.modules.attention.BasicTransformerBlock.ATTENTION_MODES["softmax-xformers"] = ldm.modules.attention.CrossAttention`

			`# silence new console spam from SD2`
			`ldm.modules.attention.print = lambda *args: None`
			`ldm.modules.diffusionmodules.model.print = lambda *args: None`
fix to tokens lenght, addend embs generator, add new features to edit the embedding before the generation using text 2022-10-15 16:59:37 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`def apply_optimizations():`
make it possible to use hypernetworks without opt split attention 2022-10-07 16:39:51 +03:00			`undo_optimizations()`

Merge branch 'master' into stable 2022-10-03 00:31:19 +03:00			`ldm.modules.diffusionmodules.model.nonlinearity = silu`
Complete cross attention update 2022-09-13 14:29:56 +03:00
Update sd_hijack.py 2022-10-15 19:19:54 +03:00			`if cmd_opts.force_enable_xformers or (cmd_opts.xformers and shared.xformers_available and torch.version.cuda and (6, 0) <= torch.cuda.get_device_capability(shared.device) <= (9, 0)):`
add --force-enable-xformers option and also add messages to console regarding cross attention optimizations 2022-10-08 19:22:15 +03:00			`print("Applying xformers cross attention optimization.")`
check for ampere without destroying the optimizations. again. 2022-10-08 17:44:53 +03:00			`ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.xformers_attention_forward`
Update sd_hijack.py 2022-10-17 22:19:18 +03:00			`ldm.modules.diffusionmodules.model.AttnBlock.forward = sd_hijack_optimizations.xformers_attnblock_forward`
delete broken and unnecessary aliases 2022-10-08 04:10:35 +03:00			`elif cmd_opts.opt_split_attention_v1:`
add --force-enable-xformers option and also add messages to console regarding cross attention optimizations 2022-10-08 19:22:15 +03:00			`print("Applying v1 cross attention optimization.")`
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_v1`
Add cross-attention optimization from InvokeAI * Add cross-attention optimization from InvokeAI (~30% speed improvement on MPS) * Add command line option for it * Make it default when CUDA is unavailable 2022-10-11 05:48:54 +03:00			`elif not cmd_opts.disable_opt_split_attention and (cmd_opts.opt_split_attention_invokeai or not torch.cuda.is_available()):`
Add check for psutil 2022-10-11 06:55:48 +03:00			`if not invokeAI_mps_available and shared.device.type == 'mps':`
			`print("The InvokeAI cross attention optimization for MPS requires the psutil package which is not installed.")`
			`print("Applying v1 cross attention optimization.")`
			`ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_v1`
			`else:`
			`print("Applying cross attention optimization (InvokeAI).")`
			`ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward_invokeAI`
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`elif not cmd_opts.disable_opt_split_attention and (cmd_opts.opt_split_attention or torch.cuda.is_available()):`
Add cross-attention optimization from InvokeAI * Add cross-attention optimization from InvokeAI (~30% speed improvement on MPS) * Add command line option for it * Make it default when CUDA is unavailable 2022-10-11 05:48:54 +03:00			`print("Applying cross attention optimization (Doggettx).")`
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`ldm.modules.attention.CrossAttention.forward = sd_hijack_optimizations.split_cross_attention_forward`
			`ldm.modules.diffusionmodules.model.AttnBlock.forward = sd_hijack_optimizations.cross_attention_attnblock_forward`
Complete cross attention update 2022-09-13 14:29:56 +03:00

initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`def undo_optimizations():`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`ldm.modules.attention.CrossAttention.forward = attention_CrossAttention_forward # this stops hypernets from working`
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`ldm.modules.diffusionmodules.model.nonlinearity = diffusionmodules_model_nonlinearity`
			`ldm.modules.diffusionmodules.model.AttnBlock.forward = diffusionmodules_model_AttnBlock_forward`
Complete cross attention update 2022-09-13 14:29:56 +03:00
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
do not let user choose his own prompt token count limit 2022-10-08 14:25:47 +03:00
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00			`class StableDiffusionModelHijack:`
			`fixes = None`
			`comments = []`
re-integrated tiling option as a UI element 2022-09-05 03:25:37 +03:00			`layers = None`
			`circular_enabled = False`
added token counter next to txt2img and img2img prompts 2022-09-27 22:56:18 +03:00			`clip = None`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`embedding_db = modules.textual_inversion.textual_inversion.EmbeddingDatabase(cmd_opts.embeddings_dir)`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
			`def hijack(self, m):`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`if type(m.cond_stage_model) == ldm.modules.encoders.modules.FrozenCLIPEmbedder:`
			`model_embeddings = m.cond_stage_model.transformer.text_model.embeddings`
			`model_embeddings.token_embedding = EmbeddingsWithFixes(model_embeddings.token_embedding, self)`
			`m.cond_stage_model = sd_hijack_clip.FrozenCLIPEmbedderWithCustomWords(m.cond_stage_model, self)`
			`elif type(m.cond_stage_model) == ldm.modules.encoders.modules.FrozenOpenCLIPEmbedder:`
			`m.cond_stage_model.model.token_embedding = EmbeddingsWithFixes(m.cond_stage_model.model.token_embedding, self)`
			`m.cond_stage_model = sd_hijack_open_clip.FrozenOpenCLIPEmbedderWithCustomWords(m.cond_stage_model, self)`
fix for incorrect model weight loading for #814 2022-09-29 15:40:28 +03:00
added token counter next to txt2img and img2img prompts 2022-09-27 22:56:18 +03:00			`self.clip = m.cond_stage_model`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`apply_optimizations()`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00
re-integrated tiling option as a UI element 2022-09-05 03:25:37 +03:00			`def flatten(el):`
			`flattened = [flatten(children) for children in el.children()]`
			`res = [el]`
			`for c in flattened:`
			`res += c`
			`return res`

			`self.layers = flatten(m)`

fix for incorrect model weight loading for #814 2022-09-29 15:40:28 +03:00			`def undo_hijack(self, m):`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`if type(m.cond_stage_model) == sd_hijack_clip.FrozenCLIPEmbedderWithCustomWords:`
fix for incorrect model weight loading for #814 2022-09-29 15:40:28 +03:00			`m.cond_stage_model = m.cond_stage_model.wrapped`

Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`model_embeddings = m.cond_stage_model.transformer.text_model.embeddings`
			`if type(model_embeddings.token_embedding) == EmbeddingsWithFixes:`
			`model_embeddings.token_embedding = model_embeddings.token_embedding.wrapped`
			`elif type(m.cond_stage_model) == sd_hijack_open_clip.FrozenOpenCLIPEmbedderWithCustomWords:`
			`m.cond_stage_model.wrapped.model.token_embedding = m.cond_stage_model.wrapped.model.token_embedding.wrapped`
			`m.cond_stage_model = m.cond_stage_model.wrapped`
fix for incorrect model weight loading for #814 2022-09-29 15:40:28 +03:00
cleanly undo circular hijack #4818 2022-11-18 13:22:55 +03:00			`self.apply_circular(False)`
Unload sd_model before loading the other 2022-11-01 10:01:49 +03:00			`self.layers = None`
			`self.clip = None`

re-integrated tiling option as a UI element 2022-09-05 03:25:37 +03:00			`def apply_circular(self, enable):`
			`if self.circular_enabled == enable:`
			`return`

			`self.circular_enabled = enable`

			`for layer in [layer for layer in self.layers if type(layer) == torch.nn.Conv2d]:`
			`layer.padding_mode = 'circular' if enable else 'zeros'`

fix bug where when using prompt composition, hijack_comments generated before the final AND will be dropped 2022-10-08 00:48:34 +03:00			`def clear_comments(self):`
			`self.comments = []`

added token counter next to txt2img and img2img prompts 2022-09-27 22:56:18 +03:00			`def tokenize(self, text):`
			`_, remade_batch_tokens, _, _, _, token_count = self.clip.process_text([text])`
Add support Stable Diffusion 2.0 2022-11-26 16:10:46 +03:00			`return remade_batch_tokens[0], token_count, sd_hijack_clip.get_target_prompt_token_count(token_count)`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00


			`class EmbeddingsWithFixes(torch.nn.Module):`
			`def __init__(self, wrapped, embeddings):`
			`super().__init__()`
			`self.wrapped = wrapped`
			`self.embeddings = embeddings`

			`def forward(self, input_ids):`
			`batch_fixes = self.embeddings.fixes`
			`self.embeddings.fixes = None`

			`inputs_embeds = self.wrapped(input_ids)`

initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`if batch_fixes is None or len(batch_fixes) == 0 or max([len(x) for x in batch_fixes]) == 0:`
			`return inputs_embeds`

			`vecs = []`
			`for fixes, tensor in zip(batch_fixes, inputs_embeds):`
			`for offset, embedding in fixes:`
			`emb = embedding.vec`
fix to tokens lenght, addend embs generator, add new features to edit the embedding before the generation using text 2022-10-15 16:59:37 +03:00			`emb_len = min(tensor.shape[0] - offset - 1, emb.shape[0])`
			`tensor = torch.cat([tensor[0:offset + 1], emb[0:emb_len], tensor[offset + 1 + emb_len:]])`
initial support for training textual inversion 2022-10-02 15:03:39 +03:00
			`vecs.append(tensor)`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00
initial support for training textual inversion 2022-10-02 15:03:39 +03:00			`return torch.stack(vecs)`
split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00

add an option to enable tiling image generation 2022-09-05 02:16:36 +03:00			`def add_circular_option_to_conv_2d():`
			`conv2d_constructor = torch.nn.Conv2d.__init__`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00
add an option to enable tiling image generation 2022-09-05 02:16:36 +03:00			`def conv2d_constructor_circular(self, args, *kwargs):`
			`return conv2d_constructor(self, args, padding_mode='circular', *kwargs)`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00
add an option to enable tiling image generation 2022-09-05 02:16:36 +03:00			`torch.nn.Conv2d.__init__ = conv2d_constructor_circular`
add split attention layer optimization from https://github.com/basujindal/stable-diffusion/pull/117 2022-09-05 01:41:20 +03:00

split codebase into multiple files; to anyone this affects negatively: sorry 2022-09-03 12:08:45 +03:00			`model_hijack = StableDiffusionModelHijack()`
move DDIM/PLMS fix for OSX out of the file with inpainting code. 2022-11-11 18:20:18 +03:00

			`def register_buffer(self, name, attr):`
			`"""`
			`Fix register buffer bug for Mac OS.`
			`"""`

			`if type(attr) == torch.Tensor:`
			`if attr.device != devices.device:`

use the new devices.has_mps() function in register_buffer for DDIM/PLMS fix for OSX 2022-11-12 10:00:22 +03:00			`if devices.has_mps():`
move DDIM/PLMS fix for OSX out of the file with inpainting code. 2022-11-11 18:20:18 +03:00			`attr = attr.to(device="mps", dtype=torch.float32)`
			`else:`
			`attr = attr.to(devices.device)`

			`setattr(self, name, attr)`


			`ldm.models.diffusion.ddim.DDIMSampler.register_buffer = register_buffer`
			`ldm.models.diffusion.plms.PLMSSampler.register_buffer = register_buffer`