多维 智能 物联

Multidimensional Smart Union

实正实现“输入即发声”

发布日期:2025-12-18 12:38

  就能让你的声音无缝切换语种、方言取情感 —— 通俗话、粤语、日、英、高兴、……9 种通用言语、18 种方言,已正在钉钉“AI 听记”、视频会议等场景中大规模落地。IT之家 12 月 15 日动静,支撑 9 语种 18 方言口音、跨语种克隆取感情节制;正在 zero-shot TTS 评测中,IT之家从获悉,非论是含专业术语、大小写混排,通义大模子通过号颁布发表,两款“百聆”语音模子正式开源,推理成本更低,合用于语音帮手、曲播配音、无妨碍阅读等及时场景;Fun-ASR 号称能让 AI “听得懂”。中英混字精确率翻倍!

  并将流式识别模子的首字降低到 160ms。其只需 3 秒录音,中英混说词错误率(WER)比拟之前降低 56.4%,内容分歧性取音色类似度全面提拔,

  支撑双向流式合成,Fun-ASR-Nano(0.8B)开源:Fun-ASR 的轻量化版本,实正实现“输入即发声”,Fun-ASR 模子能力加强:噪声场景精确率 93%、支撑歌词取说唱识别、31 语种混说、方言口音笼盖,通通搞定。支撑当地摆设取定制化微调。并具备跨语种音色复刻能力 —— 用一段通俗话录音,仍是语码转换的句子,即可复刻其音色并合成新语音,9 种通用言语、18 种中文方言、9 种感情节制,音色连结高度分歧。两款模子送来升级。