Meta 发布了一种多模态语音翻译模型 SeamlessM4T,可以无缝地在语音和文本之间进行翻译和转录。
该模型支持近100种语言的自动语音识别、语音到文本翻译、语音到语音翻译、文本到文本翻译以及文本到语音翻译等任务。为了支持这个模型的发展,Meta 还发布了 SeamlessAlign 的元数据,包含了27万小时的语音和文本对齐数据。
SeamlessM4T 在近100种语言上取得了最好的结果,并在支持语言中资源较少的语言上表现出色。Meta 希望通过开放分享 SeamlessM4T 模型和相关技术,推动多语言翻译领域的发展。
此外,Meta 还提供了 SONAR、stopes 和 fairseq2等工具和库,用于数据挖掘、多模态数据处理和序列建模。
评论列表 (条)