Skip to content

Commit 76b4b0c

Browse files
committed
note: automatic commit at 2026-03-18 07:05:53
1 parent a1f2051 commit 76b4b0c

1 file changed

Lines changed: 1 addition & 1 deletion

File tree

content/papers/beyond-language-modeling-an-exploration-of-multimodal-pretraining-6de5ac2a.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -99,7 +99,7 @@ $$
9999

100100
## Evidence And Claims
101101

102-
- Text + Video 不伤害语言能力,甚至在 DCLM 上优于 text-only。说明真正伤语言的不是视觉模态本身,而更像是 image caption text 的 distribution shift。
102+
- Text + Video 不伤害语言能力,甚至在 DCLM 上优于 text-only。说明真正语言的不是视觉模态本身,而更像是 image caption text 的 distribution shift。
103103
- Text + MetaCLIP 的 perplexity 最差。作者将其归因于 image caption 风格文本与 DCLM 主文本分布不一致。
104104
- 论文显式比较了 MetaCLIP, MetaCLIP Recaption, SSTK 与 DCLM 的文本分布距离;距离越远,语言 perplexity 越容易变差。
105105
- 不同 image-text source 对应不同能力:MetaCLIP 更适合 I2T / understanding;SSTK 更适合 T2I / generation。因此 image-text data 应该按 objective 选,而不是混成一种通用 caption 数据。

0 commit comments

Comments
 (0)