图文对比学习的步骤和损失
假设我们的批次大小为 $N$,那么一个批次的数据包含: $N$ 张图像: [$\text {img}_1$, $\text {img}_2$, …, $\text {img}_N$] $N$ 段文本: [$\text {text}_1$, $\text {text}_2$, …, $\text {text}_N$] 这里的关键是,$\text {img}_i$ 和 $\text {text}_i$ 是一个...
Understand UNet in SD
Stable Diffusion 里的 UNet 主要有三个输入,分别是: Input Dimensions 带噪的潜空间图像 (1, 4, 64, 64) 时间步 (1,) 文本提示编码 (1, 77, 768) 这三个输入经过 UNet 后,会得到一个输出,维度是 (1, 4, 64, 64...
Understand Attention in SD
许多基于 stable difffusion 的图像编辑方法,例如 prompt-to-prompt,都会利用 Stable Diffusion 的 UNet 里的注意力机制,来定位编辑词在...
LEDITS++: Attention Map
1. UNet 中的注意力机制基础 在 Stable Diffusion 的 UNet 中,有两种主要的注意力机制: 自注意力(Self-Attention) 作...
LEDITS++: Mask Computation
ledits++ 提出的计算掩码方法,会对每个编辑词分别算两种掩码,然后对这两种掩码求交集,再应用到这个概念词的编辑向量上: $ \text {final\_mask\_clooney} \odot \left ( \text {noise\_pred}\_{\text {clooney}} - \text {noise\_uncond} \right) $ $ \text {final\_mask\_sunglasses} \odot \left ( \text {noise\_pred}\_{\text {sunglasses}} - \text {noise\_uncond}...
LEDITS++: Generation Steps
一、传统的扩散模型生成图像的步骤 准备阶段 (Preparation) 输入:一个文本提示词,例如 "a photo of a cat"。 操作:将提示词编码成文本嵌入(text emb...
终于把博客弄好了
我的需求: 能流畅地发布包含数学公式和图片的 Markdown 笔记。 能方便地在线访问。 最好能有一个简单的评论功能。 我注意到 Lilian Weng 的博客,其简洁的设计正是我想要的...