SAM Audio – Meta开源的音频分割模型

软件来源：AI工具集 2025-12-22 14:39:24

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio的主要功能

多模态提示音频分离：通过文本描述、视觉选择（视频中的对象）或时间片段标记，从复杂音频混合中分离出特定声音。
支持多种音频任务：能处理语音、音乐、通用音效等多种音频分离任务，适用于不同场景。
无参考音频评测：提供SAM Audio Judge，一种无需参考音频的客观评测模型，从感知层面评估音频分离质量。
真实环境基准测试：发布SAM Audio-Bench，首个真实环境的音频分离基准，覆盖多种音频领域和提示类型，支持无参考评估。
高效实时处理：运行速度快于实时处理，实时因子约为0.7，适合大规模音频处理。
助力无障碍技术：与相关机构合作，探索在无障碍技术中的应用，如助听器集成等，推动音频AI的包容性发展。

SAM Audio的技术原理

感知编码器视听模块（PE-AV）：基于Meta开源的Perception Encoder模型，PE-AV能提取逐帧视频特征并与音频表示对齐，融合视听信息，为音频分离提供精确的时间标注和语义丰富的特征表示。
流匹配扩散Transformer架构：采用生成式建模框架，将混合音频和提示信息编码为共享表示，生成目标音轨与剩余音轨，支持多种模态的提示输入。
大规模多模态数据训练：通过融合真实与合成的混合音频数据进行训练，涵盖语音、音乐和通用音效等多种声音事件，结合先进的音频合成策略，提升模型的鲁棒性和泛化能力。
无参考音频评测模型：SAM Audio Judge基于感知维度进行音频质量评估，无需参考音轨，提供更贴近人类听觉体验的客观评测标准。
真实环境基准测试：SAM Audio-Bench作为首个真实环境的音频分离基准，覆盖多种音频任务和模态提示，支持无参考评估，确保模型在实际应用中的有效性。

SAM Audio的项目地址

项目官网：https://ai.meta.com/samaudio/
Github仓库：https://github.com/facebookresearch/sam-audio

SAM Audio的应用场景

音频清理与背景噪声移除：从音频文件中去除不需要的背景噪音，例如在播客录音中去除狗叫声或交通噪声，提升音频质量。
创意媒体制作：帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音，增强创意表达。
无障碍技术：与助听器制造商合作，探索在听力辅助设备中的应用，帮助听力受损人群更好地理解音频内容。
视频编辑：在视频制作中，通过视觉提示分离特定对象的声音，例如点击视频中的吉他手来提取吉他声，提升视频编辑的灵活性。
音频分析与研究：为音频分析提供工具，帮助研究人员分离和研究特定的声音事件，适用于音乐分析、声音生态学等领域。

延伸阅读

Molmo 2 – Ai2开源的AI视频分析模型

Molmo 2是什么Molmo 2 是艾伦人工智能研究所（Ai2）推出的开源视频分析模型，专注于视频理解、指向和追踪。模型基于 Qwen 3 和 Olmo 架构，具备强大的视频分析能力，能在视频中精准
LongCat-Video-Avatar – 美团开源的数字人视频生成模型

LongCat-Video-Avatar是什么LongCat-Video-Avatar 是美团 LongCat 团队推出的音频驱动角色动画模型。模型能生成超逼真、口型同步的长视频，保持人物身份一致性和
VTP – MiniMax视频团队开源的视觉生成模型预训练框架

VTP是什么VTP（Visual Tokenizer Pre-training）是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer，通过融合对比学习、自监督学习和

关注公众号：拾黑（shiheibook）了解更多

赞助链接：

关注数据与安全，洞悉企业级服务市场：https://www.ijiandao.com/
四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表 K2数据恢复大师立场

本文由潘婷婷发表，转载此文章须经作者同意，并请附上出处( K2数据恢复大师 )及本页链接。

原文链接 https ://www.51uos.com/news/soft/9890.html

AI工具集 SAM Audio

关注网络尖刀微信公众号
随时掌握互联网精彩

SAM Audio – Meta开源的音频分割模型

SAM Audio是什么

SAM Audio的主要功能

SAM Audio的技术原理

SAM Audio的项目地址

SAM Audio的应用场景

Molmo 2 – Ai2开源的AI视频分析模型

LongCat-Video-Avatar – 美团开源的数字人视频生成模型

VTP – MiniMax视频团队开源的视觉生成模型预训练框架