方经纶
编者按: 在数字时代的浪潮下,科技革命和产业变革正如火如荼地进行,人工智能等新技术崭露头角。如何拥抱数字时代的机遇与挑战,携手迈进更加美好的“数字未来”呢?让我们聚焦在2024年世界互联网大会乌镇峰会期间的“人民之夜@乌镇咖荟”活动,聆听互联网企业负责人的见解与分享。
趣丸科技副总裁、总编辑任少峰,作为行业内的领军人物,接受了人民网的专访,分享了有关人工智能技术在声音领域的最新成果和未来的应用场景。
人民网记者:在声音领域,人工智能技术取得了哪些显著成果?
任少峰:在声音领域,我们与香港中文大学深圳校区合作研发了开源语音大模型“MaskGCT”,这是全球最大且最为多样的高质量多语种语音数据集之一。该模型精通中英日韩法德6种语言的跨语种合成,可用于声音克隆、语音生成,大大降低了视频制作、内容播报等场景中的语音录制成本,为从业者带来了福音。
此外,我们还研发了音乐生成大模型“天谱乐(TemPolor)”。用户只需提供关键词、音频、照片或视频等素材,便可在平台上生成包含人声、唱词、乐器,多种曲风的歌曲。这项技术已应用于短视频和影视创作,如影视公司自制微短剧的配乐。未来,它将实现更加“普惠化”发展,让更多人受益。
人民网记者:未来,人工智能技术在哪些场景有望落地应用?
任少峰:未来,人工智能技术有望在多个领域实现突破。首先,我们计划开发一款兼具可视化数字形象以及实时交互能力的智能客服系统。只需一张照片,便可生成独特的数字人“分身”,根据给定知识库自主为用户解答问题。
其次,为中小型商家提供数字人直播带货服务。仅需每月支付一定服务费,即可实现24 小时不间断直播,为商家带来全新的营销方式。
再者,智能翻译系统将有助于文化出海,将微短剧翻译为其他国家语言,并精准对应音色、口型与表情,从而降低人力成本,助力文化传播。
最后,人物、物体和场景的三维重建技术将大幅提高生产效率,并有望与3D打印机相结合,将AIGC重建的模型转化为实物。
人民网记者:在人工智能技术应用场景拓展方面,存在哪些难点和挑战?
任少峰:目前,人工智能技术应用场景拓展的难点主要有三个方面。首先,人工智能团队需要同时应对基础技术研究和产品需求,任务繁重。其次,人工智能技术应用端行业缺乏将人工智能与业务相结合的具体思路。三是缺乏能将技术与应用结合起来的“中游”咨询机构、中介机构。
我们期待未来社会各界能在促进技术与应用融合方面做出更多尝试,共同推动人工智能技术的快速发展。