MiniGPT-4是一个具有图像理解能力的开源聊天机器人,基于 Vicuna-13B LLM 和 BLIP-2视觉语言模型。
研究团队首先在四张 Nvidia A100显卡上用大约500万对图像文本对 MiniGPT-4进行了十个小时的训练。在第二步中,该模型使用 MiniGPT-4和ChatGPT之间的交互生成的3,500个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4生成的不正确或不准确的图像描述。
关键要点:
MiniGPT-4可以描述图像或回答有关图像内容的问题,例如,它可以根据菜肴的图像生成食谱建议,或者为视障人士提供详细的图像描述。类似于Midjourney 的新“/describe”功能,MiniGPT-4可以从图像中提取提示,或者至少是一些想法。
相关标签: MiniGPT 4开源 一个具备图像对话能力的聊天机器人
评论列表 (条)