stable-diffusion-webui/modules/sd_models_config.py

import os

import torch

from modules import shared, paths, sd_disable_initialization, devices

sd_configs_path = shared.sd_configs_path
sd_repo_configs_path = os.path.join(paths.paths['Stable Diffusion'], "configs", "stable-diffusion")
sd_xl_repo_configs_path = os.path.join(paths.paths['Stable Diffusion XL'], "configs", "inference")


config_default = shared.sd_default_config
config_sd2 = os.path.join(sd_repo_configs_path, "v2-inference.yaml")
config_sd2v = os.path.join(sd_repo_configs_path, "v2-inference-v.yaml")
config_sd2_inpainting = os.path.join(sd_repo_configs_path, "v2-inpainting-inference.yaml")
config_sdxl = os.path.join(sd_xl_repo_configs_path, "sd_xl_base.yaml")
config_sdxl_refiner = os.path.join(sd_xl_repo_configs_path, "sd_xl_refiner.yaml")
config_depth_model = os.path.join(sd_repo_configs_path, "v2-midas-inference.yaml")
config_unclip = os.path.join(sd_repo_configs_path, "v2-1-stable-unclip-l-inference.yaml")
config_unopenclip = os.path.join(sd_repo_configs_path, "v2-1-stable-unclip-h-inference.yaml")
config_inpainting = os.path.join(sd_configs_path, "v1-inpainting-inference.yaml")
config_instruct_pix2pix = os.path.join(sd_configs_path, "instruct-pix2pix.yaml")
config_alt_diffusion = os.path.join(sd_configs_path, "alt-diffusion-inference.yaml")


def is_using_v_parameterization_for_sd2(state_dict):
    """
    Detects whether unet in state_dict is using v-parameterization. Returns True if it is. You're welcome.
    """

    import ldm.modules.diffusionmodules.openaimodel

    device = devices.cpu

    with sd_disable_initialization.DisableInitialization():
        unet = ldm.modules.diffusionmodules.openaimodel.UNetModel(
            use_checkpoint=True,
            use_fp16=False,
            image_size=32,
            in_channels=4,
            out_channels=4,
            model_channels=320,
            attention_resolutions=[4, 2, 1],
            num_res_blocks=2,
            channel_mult=[1, 2, 4, 4],
            num_head_channels=64,
            use_spatial_transformer=True,
            use_linear_in_transformer=True,
            transformer_depth=1,
            context_dim=1024,
            legacy=False
        )
        unet.eval()

    with torch.no_grad():
        unet_sd = {k.replace("model.diffusion_model.", ""): v for k, v in state_dict.items() if "model.diffusion_model." in k}
        unet.load_state_dict(unet_sd, strict=True)
        unet.to(device=device, dtype=torch.float)

        test_cond = torch.ones((1, 2, 1024), device=device) * 0.5
        x_test = torch.ones((1, 4, 8, 8), device=device) * 0.5

        out = (unet(x_test, torch.asarray([999], device=device), context=test_cond) - x_test).mean().item()

    return out < -1


def guess_model_config_from_state_dict(sd, filename):
    sd2_cond_proj_weight = sd.get('cond_stage_model.model.transformer.resblocks.0.attn.in_proj_weight', None)
    diffusion_model_input = sd.get('model.diffusion_model.input_blocks.0.0.weight', None)
    sd2_variations_weight = sd.get('embedder.model.ln_final.weight', None)

    if sd.get('conditioner.embedders.1.model.ln_final.weight', None) is not None:
        return config_sdxl
    if sd.get('conditioner.embedders.0.model.ln_final.weight', None) is not None:
        return config_sdxl_refiner
    elif sd.get('depth_model.model.pretrained.act_postprocess3.0.project.0.bias', None) is not None:
        return config_depth_model
    elif sd2_variations_weight is not None and sd2_variations_weight.shape[0] == 768:
        return config_unclip
    elif sd2_variations_weight is not None and sd2_variations_weight.shape[0] == 1024:
        return config_unopenclip

    if sd2_cond_proj_weight is not None and sd2_cond_proj_weight.shape[1] == 1024:
        if diffusion_model_input.shape[1] == 9:
            return config_sd2_inpainting
        elif is_using_v_parameterization_for_sd2(sd):
            return config_sd2v
        else:
            return config_sd2

    if diffusion_model_input is not None:
        if diffusion_model_input.shape[1] == 9:
            return config_inpainting
        if diffusion_model_input.shape[1] == 8:
            return config_instruct_pix2pix

    if sd.get('cond_stage_model.roberta.embeddings.word_embeddings.weight', None) is not None:
        return config_alt_diffusion

    return config_default


def find_checkpoint_config(state_dict, info):
    if info is None:
        return guess_model_config_from_state_dict(state_dict, "")

    config = find_checkpoint_config_near_filename(info)
    if config is not None:
        return config

    return guess_model_config_from_state_dict(state_dict, info.filename)


def find_checkpoint_config_near_filename(info):
    if info is None:
        return None

    config = f"{os.path.splitext(info.filename)[0]}.yaml"
    if os.path.exists(config):
        return config

    return None
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`import os`

automatically detect v-parameterization for SD2 checkpoints 2023-01-28 15:24:29 +03:00			`import torch`

split shared.py into multiple files; should resolve all circular reference import errors related to shared.py 2023-08-09 10:25:35 +03:00			`from modules import shared, paths, sd_disable_initialization, devices`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00
			`sd_configs_path = shared.sd_configs_path`
			`sd_repo_configs_path = os.path.join(paths.paths['Stable Diffusion'], "configs", "stable-diffusion")`
getting SD2.1 to run on SDXL repo 2023-07-11 21:16:43 +03:00			`sd_xl_repo_configs_path = os.path.join(paths.paths['Stable Diffusion XL'], "configs", "inference")`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00

			`config_default = shared.sd_default_config`
			`config_sd2 = os.path.join(sd_repo_configs_path, "v2-inference.yaml")`
			`config_sd2v = os.path.join(sd_repo_configs_path, "v2-inference-v.yaml")`
add v2-inpainting model detection, and broaden v-model detection to include anything with 768 in the name 2023-01-28 04:06:19 +03:00			`config_sd2_inpainting = os.path.join(sd_repo_configs_path, "v2-inpainting-inference.yaml")`
SDXL support 2023-07-12 23:52:43 +03:00			`config_sdxl = os.path.join(sd_xl_repo_configs_path, "sd_xl_base.yaml")`
initial SDXL refiner support 2023-07-14 09:16:01 +03:00			`config_sdxl_refiner = os.path.join(sd_xl_repo_configs_path, "sd_xl_refiner.yaml")`
support detecting midas model fix broken api for checkpoint list 2023-01-27 11:54:19 +03:00			`config_depth_model = os.path.join(sd_repo_configs_path, "v2-midas-inference.yaml")`
Add support for the Variations models (unclip-h and unclip-l) 2023-03-25 05:48:16 +03:00			`config_unclip = os.path.join(sd_repo_configs_path, "v2-1-stable-unclip-l-inference.yaml")`
			`config_unopenclip = os.path.join(sd_repo_configs_path, "v2-1-stable-unclip-h-inference.yaml")`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`config_inpainting = os.path.join(sd_configs_path, "v1-inpainting-inference.yaml")`
			`config_instruct_pix2pix = os.path.join(sd_configs_path, "instruct-pix2pix.yaml")`
			`config_alt_diffusion = os.path.join(sd_configs_path, "alt-diffusion-inference.yaml")`


automatically detect v-parameterization for SD2 checkpoints 2023-01-28 15:24:29 +03:00			`def is_using_v_parameterization_for_sd2(state_dict):`
			`"""`
			`Detects whether unet in state_dict is using v-parameterization. Returns True if it is. You're welcome.`
			`"""`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00
automatically detect v-parameterization for SD2 checkpoints 2023-01-28 15:24:29 +03:00			`import ldm.modules.diffusionmodules.openaimodel`

			`device = devices.cpu`

			`with sd_disable_initialization.DisableInitialization():`
			`unet = ldm.modules.diffusionmodules.openaimodel.UNetModel(`
			`use_checkpoint=True,`
			`use_fp16=False,`
			`image_size=32,`
			`in_channels=4,`
			`out_channels=4,`
			`model_channels=320,`
			`attention_resolutions=[4, 2, 1],`
			`num_res_blocks=2,`
			`channel_mult=[1, 2, 4, 4],`
			`num_head_channels=64,`
			`use_spatial_transformer=True,`
			`use_linear_in_transformer=True,`
			`transformer_depth=1,`
			`context_dim=1024,`
			`legacy=False`
			`)`
			`unet.eval()`

			`with torch.no_grad():`
			`unet_sd = {k.replace("model.diffusion_model.", ""): v for k, v in state_dict.items() if "model.diffusion_model." in k}`
			`unet.load_state_dict(unet_sd, strict=True)`
			`unet.to(device=device, dtype=torch.float)`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00
automatically detect v-parameterization for SD2 checkpoints 2023-01-28 15:24:29 +03:00			`test_cond = torch.ones((1, 2, 1024), device=device) * 0.5`
			`x_test = torch.ones((1, 4, 8, 8), device=device) * 0.5`

			`out = (unet(x_test, torch.asarray([999], device=device), context=test_cond) - x_test).mean().item()`

			`return out < -1`


			`def guess_model_config_from_state_dict(sd, filename):`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`sd2_cond_proj_weight = sd.get('cond_stage_model.model.transformer.resblocks.0.attn.in_proj_weight', None)`
			`diffusion_model_input = sd.get('model.diffusion_model.input_blocks.0.0.weight', None)`
Add support for the Variations models (unclip-h and unclip-l) 2023-03-25 05:48:16 +03:00			`sd2_variations_weight = sd.get('embedder.model.ln_final.weight', None)`
support detecting midas model fix broken api for checkpoint list 2023-01-27 11:54:19 +03:00
SDXL support 2023-07-12 23:52:43 +03:00			`if sd.get('conditioner.embedders.1.model.ln_final.weight', None) is not None:`
			`return config_sdxl`
initial SDXL refiner support 2023-07-14 09:16:01 +03:00			`if sd.get('conditioner.embedders.0.model.ln_final.weight', None) is not None:`
			`return config_sdxl_refiner`
SDXL support 2023-07-12 23:52:43 +03:00			`elif sd.get('depth_model.model.pretrained.act_postprocess3.0.project.0.bias', None) is not None:`
support detecting midas model fix broken api for checkpoint list 2023-01-27 11:54:19 +03:00			`return config_depth_model`
Add support for the Variations models (unclip-h and unclip-l) 2023-03-25 05:48:16 +03:00			`elif sd2_variations_weight is not None and sd2_variations_weight.shape[0] == 768:`
			`return config_unclip`
			`elif sd2_variations_weight is not None and sd2_variations_weight.shape[0] == 1024:`
			`return config_unopenclip`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00
			`if sd2_cond_proj_weight is not None and sd2_cond_proj_weight.shape[1] == 1024:`
add v2-inpainting model detection, and broaden v-model detection to include anything with 768 in the name 2023-01-28 04:06:19 +03:00			`if diffusion_model_input.shape[1] == 9:`
			`return config_sd2_inpainting`
automatically detect v-parameterization for SD2 checkpoints 2023-01-28 15:24:29 +03:00			`elif is_using_v_parameterization_for_sd2(sd):`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`return config_sd2v`
			`else:`
			`return config_sd2`

			`if diffusion_model_input is not None:`
			`if diffusion_model_input.shape[1] == 9:`
			`return config_inpainting`
			`if diffusion_model_input.shape[1] == 8:`
			`return config_instruct_pix2pix`

support detecting midas model fix broken api for checkpoint list 2023-01-27 11:54:19 +03:00			`if sd.get('cond_stage_model.roberta.embeddings.word_embeddings.weight', None) is not None:`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`return config_alt_diffusion`

			`return config_default`


			`def find_checkpoint_config(state_dict, info):`
			`if info is None:`
			`return guess_model_config_from_state_dict(state_dict, "")`

			`config = find_checkpoint_config_near_filename(info)`
			`if config is not None:`
			`return config`

			`return guess_model_config_from_state_dict(state_dict, info.filename)`


			`def find_checkpoint_config_near_filename(info):`
			`if info is None:`
			`return None`

Fix up string formatting/concatenation to f-strings where feasible 2023-05-09 22:17:58 +03:00			`config = f"{os.path.splitext(info.filename)[0]}.yaml"`
remove the need to place configs near models 2023-01-27 11:28:12 +03:00			`if os.path.exists(config):`
			`return config`

			`return None`