图文对比学习的步骤和损失
假设我们的批次大小为 $N$,那么一个批次的数据包含: $N$ 张图像: [$\text{img}_1$, $\text{img}_2$, …, $\text{img}_N$] $N$ 段文本: [$\text{text}_1$, $\text{text}_2$, …, $\text{text}_N$] 这里的关键是,$\text{img}_i$ 和 $\text{text}_i$ 是一个...
假设我们的批次大小为 $N$,那么一个批次的数据包含: $N$ 张图像: [$\text{img}_1$, $\text{img}_2$, …, $\text{img}_N$] $N$ 段文本: [$\text{text}_1$, $\text{text}_2$, …, $\text{text}_N$] 这里的关键是,$\text{img}_i$ 和 $\text{text}_i$ 是一个...