SAM Audio – Meta开源的音频分割模型
软件
来源:AI工具集
2025-12-22 14:39:24
阅读:41
SAM Audio是什么
SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。用户可以通过简单的文本描述(如“吉他声”)、在视频中点击发声物体,或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio的主要功能
多模态提示音频分离:通过文本描述、视觉选择(视频中的对象)或时间片段标记,从复杂音频混合中分离出特定声音。
支持多种音频任务:能处理语音、音乐、通用音效等多种音频分离任务,适用于不同场景。
无参考音频评测:提供SAM Audio Judge,一种无需参考音频的客观评测模型,从感知层面评估音频分离质量。
真实环境基准测试:发布SAM Audio-Bench,首个真实环境的音频分离基准,覆盖多种音频领域和提示类型,支持无参考评估。
高效实时处理:运行速度快于实时处理,实时因子约为0.7,适合大规模音频处理。
助力无障碍技术:与相关机构合作,探索在无障碍技术中的应用,如助听器集成等,推动音频AI的包容性发展。
SAM Audio的技术原理
感知编码器视听模块(PE-AV):基于Meta开源的Perception Encoder模型,PE-AV能提取逐帧视频特征并与音频表示对齐,融合视听信息,为音频分离提供精确的时间标注和语义丰富的特征表示。
流匹配扩散Transformer架构:采用生成式建模框架,将混合音频和提示信息编码为共享表示,生成目标音轨与剩余音轨,支持多种模态的提示输入。
大规模多模态数据训练:通过融合真实与合成的混合音频数据进行训练,涵盖语音、音乐和通用音效等多种声音事件,结合先进的音频合成策略,提升模型的鲁棒性和泛化能力。
无参考音频评测模型:SAM Audio Judge基于感知维度进行音频质量评估,无需参考音轨,提供更贴近人类听觉体验的客观评测标准。
真实环境基准测试:SAM Audio-Bench作为首个真实环境的音频分离基准,覆盖多种音频任务和模态提示,支持无参考评估,确保模型在实际应用中的有效性。
SAM Audio的项目地址
SAM Audio的应用场景
音频清理与背景噪声移除:从音频文件中去除不需要的背景噪音,例如在播客录音中去除狗叫声或交通噪声,提升音频质量。
创意媒体制作:帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音,增强创意表达。
无障碍技术:与助听器制造商合作,探索在听力辅助设备中的应用,帮助听力受损人群更好地理解音频内容。
视频编辑:在视频制作中,通过视觉提示分离特定对象的声音,例如点击视频中的吉他手来提取吉他声,提升视频编辑的灵活性。
音频分析与研究:为音频分析提供工具,帮助研究人员分离和研究特定的声音事件,适用于音乐分析、声音生态学等领域。
延伸阅读
-
VibeVoice-ASR是什么VibeVoice-ASR 是微软开源的先进语音识别模型,专为处理长达60分钟的长音频设计。模型能一次性处理整段音频,保持全局上下文,避免传统模型分段处理导致的上下文丢
-
json-render是什么json-render是 Vercel 开源的项目,解决 AI 生成 UI 的不可控问题。json-render通过定义一个 Catalog,约束 AI 只能生成符合特定
-
EmbodiChain是什么EmbodiChain 是跨维智能开源的具身智能学习平台,通过生成式仿真数据推动具身智能的发展。自动创建符合物理规律的 3D 场景和任务,结合在线数据流和自我修复机制,高效
*文章为作者独立观点,不代表 免费SSL 立场
本文由
潘婷婷 发表,转载此文章须经作者同意,并请附上出处(免费SSL )及本页链接。
原文链接 https://www.51uos.com/news/soft/9890.html