InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models with the Progressive Scaling Strategy
blog | zhihu | huggingface
- 渐进式的训练策略,模型尺度覆盖更广
- 多模态的输入和输出
- 更广泛的训练数据,比如医学数据,视频数据
InternVL2 没有 paper,更像是在 InternVL 1.5 上做了一些小的改进。从标题来看:利用渐进式扩展策略拓展开源多模态模型的性能边界。主要强调了渐进式策略。
![](https://private-user-images.githubusercontent.com/22740819/398884755-9f52c82b-6aa2-4313-b5aa-3054c22af27d.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzg5MzU1NjMsIm5iZiI6MTczODkzNTI2MywicGF0aCI6Ii8yMjc0MDgxOS8zOTg4ODQ3NTUtOWY1MmM4MmItNmFhMi00MzEzLWI1YWEtMzA1NGMyMmFmMjdkLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMDclMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjA3VDEzMzQyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTc2YjIwM2IzZTgzZjQzMjgxZGM5NDhhOTkzMjQyMDI3NmM4NmEyMDZjNjFkNzNmZWQxZTExYWY1NzY3OGI1MmUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.AdkQPA_gFvouCjiKcl8FKLNU2-2xjgJeDluTTgujZsg)
InternVL2 系列既有适合嵌入式设备部署的 1B 模型,也有性能优先的 108B 模型,覆盖广泛。凭借更大规模的语言模型,InternVL2-Pro 展现出了出色的多模态理解能力,在各项基准测试中与商业闭源模型的性能相当。
InternVL2 系列主要有以下设计:
- Progressive with larger language models:提出了一种渐进式对齐的训练策略,从而形成第一个与大型语言模型原生对齐的视觉基础模型。通过采用模型由小到大、数据由粗粒度到细粒度的渐进式训练策略,我们以相对较低的成本完成了大型模型的训练。这种方法在有限的资源下已经表现出了优异的性能。
- Multimodal input:模型支持多种输入模式,包括文本、图像、视频和医疗数据。
- Multitask output:得益于 VisionLLMv2 的能力,模型支持各种输出格式,例如图像、边界框和蒙版,表现出广泛的多功能性。通过将 MLLM 与多个下游任务解码器连接起来,InternVL2 可以推广到数百个视觉语言任务,同时实现与专家模型相当的性能。
![](https://private-user-images.githubusercontent.com/22740819/398888496-327db1a5-c5ab-4225-bae3-720a0e0cee1a.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzg5MzU1NjMsIm5iZiI6MTczODkzNTI2MywicGF0aCI6Ii8yMjc0MDgxOS8zOTg4ODg0OTYtMzI3ZGIxYTUtYzVhYi00MjI1LWJhZTMtNzIwYTBlMGNlZTFhLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMDclMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjA3VDEzMzQyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTkxOTBiNmJiYTJiMTMwODkwMzE5NDRlNGRlMzM0YmQ4YTI3ZjBhYzI3MTJiNzk2MTNmNTVjYWRkMjNkYjYzOTMmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.CmmqP1Nik-YDPAYzVbIP1qZHrs0r11ALbqT2eG7PNBs)
- 采用了和 InternVL 1.5 中一致的动态分辨率策略
- pre-training 阶段变成了只训练 MLP,个人感觉是因为之前的 vision encoder 训的比较好了,直接拿过来用即可
- fine-tune 阶段依然是训练整个模型
和商业模型对比:
![](https://private-user-images.githubusercontent.com/22740819/398889461-203aeece-17ca-4f70-bd73-c5c6617bff38.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzg5MzU1NjMsIm5iZiI6MTczODkzNTI2MywicGF0aCI6Ii8yMjc0MDgxOS8zOTg4ODk0NjEtMjAzYWVlY2UtMTdjYS00ZjcwLWJkNzMtYzVjNjYxN2JmZjM4LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTAyMDclMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwMjA3VDEzMzQyM1omWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWQxZDVkYTM0M2UxNGJhYjAyYzBkZjRlMTgzZmMxOGJiZWNiZDhkZjI2MDY3NTQzOWFhMzMwZTRhNWRjYjc3ZWQmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.KP_iBnXHKmMVtkWlChWb2D_hMTMIVh550V712O0XRNs)