Fixed the K Diffusion samplers not working as they had different callbacks than the DDIM and PLMS samplers, also removed some unnecessary code that was left over and are no longer needed now that we can use the K diffusion samplers directly. (#594)

2024-12-15 06:21:34 +03:00 · 2022-09-03 16:20:05 -07:00 · 2022-09-03 16:20:05 -07:00 · 3e336344ea
commit 3e336344ea
parent 797136e1bd
1 changed files with 25 additions and 230 deletions
--- a/webui_streamlit.py
+++ b/webui_streamlit.py
@ -179,25 +179,25 @@ def load_sd_from_config(ckpt, verbose=False):
 	return sd
 #

-def generation_callback_k(x):
-	#if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-		# The following lines will convert the tensor we got on img to an actual image we can render on the UI.
-		# It can probably be done in a better way for someone who knows what they're doing. I don't.
-	x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x['denoised'])
-	x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)  
-	
-	pil_image = transforms.ToPILImage()(x_samples_ddim.squeeze_(0))           
-
-	st.session_state["preview_image"].image(pil_image, width=512) 
-
-def generation_callback(img, i):
+def generation_callback(img, i=0):
 	if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
+		#print (img)
+		#print (type(img))
 		# The following lines will convert the tensor we got on img to an actual image we can render on the UI.
-		# It can probably be done in a better way for someone who knows what they're doing. I don't.
-		x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(img)
-		x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)  
-		
-		pil_image = transforms.ToPILImage()(x_samples_ddim.squeeze_(0))           
+		# It can probably be done in a better way for someone who knows what they're doing. I don't.		
+		if torch.is_tensor(img):
+			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(img)
+			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)  
+			
+			pil_image = transforms.ToPILImage()(x_samples_ddim.squeeze_(0))           
+		else:
+			# When using the k Diffusion samplers they return a dict instead of a tensor that look like this:
+			# {'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigmas[i], 'denoised': denoised}
+			
+			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(img["denoised"])
+			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)  
+			
+			pil_image = transforms.ToPILImage()(x_samples_ddim.squeeze_(0)) 			
 	
 		st.session_state["preview_image"].image(pil_image, width=512) 	

@ -320,6 +320,7 @@ def get_ancestral_step(sigma_from, sigma_to):
 	sigma_up = (sigma_to ** 2 * (sigma_from ** 2 - sigma_to ** 2) / sigma_from ** 2) ** 0.5
 	sigma_down = (sigma_to ** 2 - sigma_up ** 2) ** 0.5
 	return sigma_down, sigma_up
+
 class KDiffusionSampler:
 	def __init__(self, m, sampler):
 		self.model = m
@ -327,225 +328,17 @@ class KDiffusionSampler:
 		self.schedule = sampler
 	def get_sampler_name(self):
 		return self.schedule
-	def sample(self, S, conditioning, batch_size, shape, verbose, unconditional_guidance_scale, unconditional_conditioning, eta, x_T):
+	def sample(self, S, conditioning, batch_size, shape, verbose, unconditional_guidance_scale, unconditional_conditioning, eta, x_T, img_callback=None, log_every_t=None):
 		sigmas = self.model_wrap.get_sigmas(S)
 		x = x_T * sigmas[0]
 		model_wrap_cfg = CFGDenoiser(self.model_wrap)
 		samples_ddim = None
-		samples_ddim = K.sampling.__dict__[f'sample_{self.schedule}'](model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False, callback=generation_callback_k)
-		# if self.schedule == 'dpm_2_ancestral':
-		# 	samples_ddim = sample_dpm_2_ancestral(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)
-		# elif self.schedule == 'dpm_2':
-		# 	samples_ddim = sample_dpm_2(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)
-		# elif self.schedule == 'euler_ancestral':
-		# 	samples_ddim = sample_euler_ancestral(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)
-		# elif self.schedule == 'euler':
-		# 	samples_ddim = sample_euler(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)
-		# elif self.schedule == 'heun':
-		# 	samples_ddim = sample_heun(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)  
-		# elif self.schedule == 'lms':
-		# 	samples_ddim = sample_lms(model_wrap_cfg, x, sigmas, extra_args={'cond': conditioning, 'uncond': unconditional_conditioning, 'cond_scale': unconditional_guidance_scale}, disable=False)
+		samples_ddim = K.sampling.__dict__[f'sample_{self.schedule}'](model_wrap_cfg, x, sigmas,
+									      extra_args={'cond': conditioning, 'uncond': unconditional_conditioning,
+											  'cond_scale': unconditional_guidance_scale}, disable=False, callback=generation_callback)
 		#
 		return samples_ddim, None

-@torch.no_grad()
-def sample_euler(model, x, sigmas, extra_args=None, callback=None, disable=None, s_churn=0., s_tmin=0., s_tmax=float('inf'), s_noise=1.):
-	"""Implements Algorithm 2 (Euler steps) from Karras et al. (2022)."""
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	for i in trange(len(sigmas) - 1, disable=disable):
-		gamma = min(s_churn / (len(sigmas) - 1), 2 ** 0.5 - 1) if s_tmin <= sigmas[i] <= s_tmax else 0.
-		eps = torch.randn_like(x) * s_noise
-		sigma_hat = sigmas[i] * (gamma + 1)
-		if gamma > 0:
-			x = x + eps * (sigma_hat ** 2 - sigmas[i] ** 2) ** 0.5
-		denoised = model(x, sigma_hat * s_in, **extra_args)
-		d = to_d(x, sigma_hat, denoised)
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigma_hat, 'denoised': denoised})
-		dt = sigmas[i + 1] - sigma_hat
-		# Euler method
-		x = x + d * dt
-		
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			# The following lines will convert the tensor we got on img to an actual image we can render on the UI.
-			# It can probably be done in a better way for someone who knows what they're doing. I don't.
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(img)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512)    
-	return x
-
-
-@torch.no_grad()
-def sample_euler_ancestral(model, x, sigmas, extra_args=None, callback=None, disable=None):
-	"""Ancestral sampling with Euler method steps."""
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	for i in trange(len(sigmas) - 1, disable=disable):
-		denoised = model(x, sigmas[i] * s_in, **extra_args)
-		sigma_down, sigma_up = get_ancestral_step(sigmas[i], sigmas[i + 1])
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigmas[i], 'denoised': denoised})
-		d = to_d(x, sigmas[i], denoised)
-		# Euler method
-		dt = sigma_down - sigmas[i]
-		x = x + d * dt
-		x = x + torch.randn_like(x) * sigma_up
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512)   
-	return x
-
-
-@torch.no_grad()
-def sample_heun(model, x, sigmas, extra_args=None, callback=None, disable=None, s_churn=0., s_tmin=0., s_tmax=float('inf'), s_noise=1.):
-	"""Implements Algorithm 2 (Heun steps) from Karras et al. (2022)."""
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	for i in trange(len(sigmas) - 1, disable=disable):
-		gamma = min(s_churn / (len(sigmas) - 1), 2 ** 0.5 - 1) if s_tmin <= sigmas[i] <= s_tmax else 0.
-		eps = torch.randn_like(x) * s_noise
-		sigma_hat = sigmas[i] * (gamma + 1)
-		if gamma > 0:
-			x = x + eps * (sigma_hat ** 2 - sigmas[i] ** 2) ** 0.5
-		denoised = model(x, sigma_hat * s_in, **extra_args)
-		d = to_d(x, sigma_hat, denoised)
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigma_hat, 'denoised': denoised})
-		dt = sigmas[i + 1] - sigma_hat
-		if sigmas[i + 1] == 0:
-			# Euler method
-			x = x + d * dt
-		else:
-			# Heun's method
-			x_2 = x + d * dt
-			denoised_2 = model(x_2, sigmas[i + 1] * s_in, **extra_args)
-			d_2 = to_d(x_2, sigmas[i + 1], denoised_2)
-			d_prime = (d + d_2) / 2
-			x = x + d_prime * dt
-
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512)  
-
-	return x
-
-
-@torch.no_grad()
-def sample_dpm_2(model, x, sigmas, extra_args=None, callback=None, disable=None, s_churn=0., s_tmin=0., s_tmax=float('inf'), s_noise=1.):
-	"""A sampler inspired by DPM-Solver-2 and Algorithm 2 from Karras et al. (2022)."""
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	for i in trange(len(sigmas) - 1, disable=disable):
-		gamma = min(s_churn / (len(sigmas) - 1), 2 ** 0.5 - 1) if s_tmin <= sigmas[i] <= s_tmax else 0.
-		eps = torch.randn_like(x) * s_noise
-		sigma_hat = sigmas[i] * (gamma + 1)
-		if gamma > 0:
-			x = x + eps * (sigma_hat ** 2 - sigmas[i] ** 2) ** 0.5
-		denoised = model(x, sigma_hat * s_in, **extra_args)
-		d = to_d(x, sigma_hat, denoised)
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigma_hat, 'denoised': denoised})
-		# Midpoint method, where the midpoint is chosen according to a rho=3 Karras schedule
-		sigma_mid = ((sigma_hat ** (1 / 3) + sigmas[i + 1] ** (1 / 3)) / 2) ** 3
-		dt_1 = sigma_mid - sigma_hat
-		dt_2 = sigmas[i + 1] - sigma_hat
-		x_2 = x + d * dt_1
-		denoised_2 = model(x_2, sigma_mid * s_in, **extra_args)
-		d_2 = to_d(x_2, sigma_mid, denoised_2)
-		x = x + d_2 * dt_2
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512)  
-	return x
-
-
-@torch.no_grad()
-def sample_dpm_2_ancestral(model, x, sigmas, extra_args=None, callback=None, disable=None):
-	"""Ancestral sampling with DPM-Solver inspired second-order steps."""
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	for i in trange(len(sigmas) - 1, disable=disable):
-		denoised = model(x, sigmas[i] * s_in, **extra_args)
-		sigma_down, sigma_up = get_ancestral_step(sigmas[i], sigmas[i + 1])
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigmas[i], 'denoised': denoised})
-		d = to_d(x, sigmas[i], denoised)
-		# Midpoint method, where the midpoint is chosen according to a rho=3 Karras schedule
-		sigma_mid = ((sigmas[i] ** (1 / 3) + sigma_down ** (1 / 3)) / 2) ** 3
-		dt_1 = sigma_mid - sigmas[i]
-		dt_2 = sigma_down - sigmas[i]
-		x_2 = x + d * dt_1
-		denoised_2 = model(x_2, sigma_mid * s_in, **extra_args)
-		d_2 = to_d(x_2, sigma_mid, denoised_2)
-		x = x + d_2 * dt_2
-		x = x + torch.randn_like(x) * sigma_up
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512)  
-	return x
-
-
-
-
-
-@torch.no_grad()
-def sample_lms(model, x, sigmas, extra_args=None, callback=None, disable=None, order=4):
-	extra_args = {} if extra_args is None else extra_args
-	s_in = x.new_ones([x.shape[0]])
-	ds = []
-	for i in trange(len(sigmas) - 1, disable=disable):
-		denoised = model(x, sigmas[i] * s_in, **extra_args)
-		d = to_d(x, sigmas[i], denoised)
-		ds.append(d)
-		if len(ds) > order:
-			ds.pop(0)
-		if callback is not None:
-			callback({'x': x, 'i': i, 'sigma': sigmas[i], 'sigma_hat': sigmas[i], 'denoised': denoised})
-		cur_order = min(i + 1, order)
-		coeffs = [linear_multistep_coeff(cur_order, sigmas.cpu(), i, j) for j in range(cur_order)]
-		x = x + sum(coeff * d for coeff, d in zip(coeffs, reversed(ds)))
-		
-		if i % int(defaults.general.update_preview_frequency) == 0 and defaults.general.update_preview:
-			x_samples_ddim = (st.session_state["model"] if not defaults.general.optimized else modelFS).decode_first_stage(x)
-			x_samples_ddim = torch.clamp((x_samples_ddim + 1.0) / 2.0, min=0.0, max=1.0)            
-
-			for i, x_sample in enumerate(x_samples_ddim):
-				x_sample = 255. * rearrange(x_sample.cpu().numpy(), 'c h w -> h w c')
-				x_sample = x_sample.astype(np.uint8)               
-
-				st.session_state["preview_image"].image(x_sample, width=512) 
-	return x
-

@torch.no_grad()
 def log_likelihood(model, x, sigma_min, sigma_max, extra_args=None, atol=1e-4, rtol=1e-4):
@ -1279,7 +1072,9 @@ def txt2img(prompt: str, ddim_steps: int, sampler_name: str, realesrgan_model_na

 	def sample(init_data, x, conditioning, unconditional_conditioning, sampler_name):
 		samples_ddim, _ = sampler.sample(S=ddim_steps, conditioning=conditioning, batch_size=int(x.shape[0]), shape=x[0].shape, verbose=False, unconditional_guidance_scale=cfg_scale,
-	                                 unconditional_conditioning=unconditional_conditioning, eta=ddim_eta, x_T=x, img_callback=generation_callback, log_every_t=int(defaults.general.update_preview_frequency))
+	                                 unconditional_conditioning=unconditional_conditioning, eta=ddim_eta, x_T=x, img_callback=generation_callback,
+					 log_every_t=int(defaults.general.update_preview_frequency))
+		
 		return samples_ddim

 	try: