MobileVLM:一种快速、可复现且强大的适用于移动设备的视觉语言助手。

MobileVLM:一种快速、可复现且强大的适用于移动设备的视觉语言助手。

论文摘要:

我们向您介绍MobileVLM。这是一款专为移动设备打造的、出色的多模态视觉语言模型(MMVLM)。

MobileVLM混合了各种面向移动设备的架构设计和技术。这其中包括一套从零开始训练的大规模语言模型(参数达到14亿和27亿),一个使用CLIP方法预训练的多模态视觉模型,以及一个高效的投射器,可实现跨模式交互。

我们使用了几种典型的VLM基准测试来评估MobileVLM。结果表明,我们的模型与一些大模型相比,表现相当出色。我们在Qualcomm Snapdragon 888 CPU和NVIDIA Jeston Orin GPU上测量了推理速度。

令人兴奋的是,我们取得了21.5个和65.3个 Token 每秒的推理速度,这在业界属于领先水平。

论文地址:https://arxiv.org/abs/2312.16886
https://weibo.cn/sinaurl?u=https%3A%2F%2Farxiv.org%2Fabs%2F2312.16886)

项目地址:
https://github.com/Meituan-AutoML/MobileVLM?continueFlag=48c6ac337ec997382068a1426679b2ec

️️️测试一下