虽然像Runway ML这样的公司在将文本转换为视频方面取得了长足的进步,但 VideoChatGPT却另辟蹊径,赋予语言模型分析视频的能力。Video-ChatGPT 可以用文本描述视频的内容,例如,通过突出显示不寻常的元素来解释为什么剪辑可能很有趣。
开发人员通过一段长颈鹿从跳水板上跳入水中的视频来演示这一点。Video-ChatGPT 指出:“这并不常见,因为长颈鹿并不擅长杂技或潜水。”
链接到开源语言模型的预训练视频编码器
研究人员将 Video-ChatGPT 的设计描述为简单且易于扩展。它使用预训练的视频编码器,并将其与预训练然后微调的语言模型相结合。
相关标签: 视频解析工具Video ChatGPT上线 可用文本描述视频内容
评论列表 (条)