x2x5

图文对比学习的步骤和损失

假设我们的批次大小为 $N$，那么一个批次的数据包含： $N$ 张图像: [$\text{img}_1$, $\text{img}_2$, …, $\text{img}_N$] $N$ 段文本: [$\text{text}_1$, $\text{text}_2$, …, $\text{text}_N$] 这里的关键是，$\text{img}_i$ 和 $\text{text}_i$ 是一个...

Understand UNet in SD

Stable Diffusion 里的 UNet 主要有三个输入，分别是： Input Dimensions 带噪的潜空间图像 (1, 4, 64, 64) 时间步 (1,) 文本提示编码 (1, 77, 768) 这三个输入经过 UNet 后，会得到一个输出，维度是 (1, 4, 64, 64...

Understand Attention in SD

许多基于stable difffusion的图像编辑方法，例如 prompt-to-prompt，都会利用 Stable Diffusion 的 UNet 里的注意力机制，来定位编辑词在...

LEDITS++: Attention Map

1. UNet中的注意力机制基础在Stable Diffusion的UNet中，有两种主要的注意力机制：自注意力（Self-Attention）作...

LEDITS++: Mask Computation

ledits++ 提出的计算掩码方法，会对每个编辑词分别算两种掩码，然后对这两种掩码求交集，再应用到这个概念词的编辑向量上： $ \text{final\_mask\_clooney} \odot \left( \text{noise\_pred}\_{\text{clooney}} - \text{noise\_uncond} \right) $ $ \text{final\_mask\_sunglasses} \odot \left( \text{noise\_pred}\_{\text{sunglasses}} - \text{noise\_uncond}...

LEDITS++: Generation Steps

一、传统的扩散模型生成图像的步骤准备阶段 (Preparation) 输入: 一个文本提示词，例如 "a photo of a cat"。操作: 将提示词编码成文本嵌入（text emb...

终于把博客弄好了

我的需求：能流畅地发布包含数学公式和图片的 Markdown 笔记。能方便地在线访问。最好能有一个简单的评论功能。我注意到 Lilian Weng 的博客，其简洁的设计正是我想要的...