音视频一键生成讯飞智作让内容生产高效率智能化|今日热闻

2023-04-24 21:38:23来源：中关村在线

4月21日，由中央网信办网络传播局、中央网信办网络管理技术局、江苏省委网信办、人民网共同发起的“2023中

4月21日，由中央网信办网络传播局、中央网信办网络管理技术局、江苏省委网信办、人民网共同发起的“2023中国网络媒体论坛‘八点见’项目发布会”成功举办，“讯飞智作--AIGC内容创作平台”在发布会上亮相，这一平台是科大讯飞在AIGC领域的一项创新实践成果。

讯飞智作，用AI赋能音视频创作。其基于科大讯飞的语音合成、人脸建模、唇形预测、图形处理等多项人工智能技术，为用户提供音视频生产平台。提供的服务包括AI配音、AI虚拟主播视频制作等内容创作，可以解决用户制作时找主播难、成本高、生产效率低等痛点问题，让内容创作更加灵活、高效、便捷。

(相关资料图)

不妨将讯飞智作看成一个虚拟的“AI演播室”。用户进入该平台后，通过输入文稿、选定虚拟主播等步骤，即可一键完成音视频内容的制作。用户还可以选择“AI配音”“虚拟人视频播报”“声音定制”“形象定制”等多样的服务以适应不同的应用场景，大大提高内容生产效率。

发布会现场，科大讯飞虚拟人业务部总经理郜静文分享了由讯飞智作配音生成的短视频《雨水》。视频中，柔和而清晰的男声与春日雨景融为一体，情感充沛，顿挫分明，宛若人声。

这样动听的声音，来自讯飞智作平台中的一位AI虚拟主播，其风格为“成熟稳重、亲切温和”。在讯飞智作平台内，有着86个类似的“发音人”，共133个音库，风格各异，用户可根据使用场景自主选择。

据郜静文介绍，《雨水》视频的配音制作基于科大讯飞重点研发的smart TTS语音合成技术。这一技术支持10种以上的场景应用和情感调节能力，提升了发音人发声的韵律、音质、情感表现，并支持声音停顿、重音、语速等元素的自由调节，让AI的声音具备了与人类相似的情感表达能力。

据了解，讯飞智作已与学习强国、新华社、WAIC、中信银行、中国平安等单位达成合作，其创作的新闻视频、培训视频、广告视频等内容已经广泛应用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营等多个领域。

早在2021年，科大讯飞就发布了AI虚拟人交互平台，其具有多模感知、多维表达、自主定义、情感贯穿四大特性。郜静文还介绍了讯飞智作运用“自主定义”和“情感贯穿”两项特性的最新进展。

在“自主定义”方面，虚拟发言人“智造”过程更轻便、自动化。目前讯飞智作已支持从声音到形象的自动化构建能力，可生成差异化的虚拟资产

在“情感贯穿”方面，多情感功能上线。讯飞智作现有音库包含了大气浑厚、年轻时尚、可爱甜美、成熟知性、稳重磁性等多种风格，覆盖新闻播报、专题宣传、有声阅读、情感文章、广告促销、教育培训等场景，语言支持普通话、方言和英语，合成效果可自主调节，其语音效果媲美真人。

关于公司在AIGC领域的整体布局，科大讯飞AI研究院常务副院长高建清曾在今年3月29日的中国AIGC产业峰会上进行了分享。他表示，“底座+能力+应用”是科大讯飞AIGC整体布局的三层架构：以文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件为技术底座，形成音频创作、视觉创作、文本创作三大AIGC能力，进而衍生出在教育、医疗、人机交互等领域的丰富应用。

未来，讯飞智作将致力于用AI更好地拓展内容创作方式，持续让AIGC助力各行各业的内容生产。

关键词：

责任编辑：hnmd004