收藏本站 网站导航 开放平台 Tuesday, July 8, 2025 星期二
  • 微信

中金观点 | 元宇宙系列研究之AI+数字原生:AIGC涌内容生成之浪,NLP筑智能交互之基

来源 外汇天眼 09-20 19:10
以下文章来源于中金点睛,作者魏鹳霏 于钟海等  近期,“中金观点”栏目持续推出“元宇宙”主题系列研究,围绕元宇宙定义、技术基础、积极影响及VR/AR、Web 3.0、虚拟人等方面的应用展开具体解读和畅想,以飨读者。

  以下文章来源于中金点睛,作者魏鹳霏 于钟海等

  近期,“中金观点”栏目持续推出“元宇宙”主题系列研究,围绕元宇宙定义、技术基础、积极影响及VR/AR、Web 3.0、虚拟人等方面的应用展开具体解读和畅想,以飨读者。

  元宇宙提出对实时沉浸式交互体验更高的要求,底层CPU/GPU硬件能力迭代、网络传输质量提升、垂直应用场景的演进共同促进基础设施完善。云渲染是基于云计算技术在虚拟世界下面向实时互动场景的典型应用,用户终端渲染需求与算力部署分离成为趋势,依托分布式算力,客户无需前置繁琐的IT硬件承担运维成本,中心云池化资源+边缘云模式提升算力效率,为元宇宙发展筑基。

  本文作者:陈星宇,于钟海,魏鹳霏,钱凯

  AI是构建元宇宙的关键底层技术之一,本篇报告从数字原生角度出发,即AI助力虚拟内容生产并赋予数字人“智能”,梳理AI赋能数字世界主题下的技术进步与应用推广脉络。我们认为,AI助力数字原生主要体现在AIGC内容生成和NLP技术,二者是外在拟人化、内在智能化的主要驱动力。2012年深度学习兴起与2018年NLP领域Transformer路线蓬勃发展为技术发展的关键时间节点,在应用端引领数字人由表及里地深化真实自然与智能。放眼未来,在AI技术的加持下,以数字人为代表的应用有望实现“道术并举、内外兼修”。

  摘要

  技术端:AI技术中AIGC+NLP双轮驱动,为数字世界内容生产和智能交互打下技术基础。

  1)AIGC:

  2)NLP:

  应用端:标杆平台英伟达Omniverse Avatar集成AI赋能数字世界的技术工具,数字人产业由深度学习驱动迈入新阶段。

  未来展望:以AIGC和NLP为代表的技术演进将持续拓展新兴应用场景。

  1)技术演进方面,

  2)应用方向方面,

  风险

  正文

  AI赋能数字世界:AIGC内容生成之纽,NLP交互智能之基

  AI作为连接数字与物理世界的纽带,是构建元宇宙的关键基础技术之一;从数字原生角度,AI助力数字世界中虚拟内容生成并赋予数字人“智能”。

  AI赋能数字世界的技术框架:AIGC+NLP双轮驱动

  AI技术为构建元宇宙的生产基座,从技术角度,AI赋能主要围绕内容/形象维度AIGC与智能交互维度NLP展开。

  AI将数字世界的内容生成技术由2D引领至3D时代,由手动进入自动建模时代,由真人驱动进入AI技术驱动时代。

  ►智能化生成:将AI与CG建模技术相融合,塑造生动数字人形象。

  ►智能化交互:将虚拟世界的人和物赋予智慧,以NLP为技术核心,从“能理解”到“会思考”到“有温度”。

  AIGC:实现内容工业化生产、形象拟人化生成的推手

  从PGC到UGC,内容生产方式终迎AIGC根本性变革

  用户需求多样化、个性化的大背景下,人力创作效率低下成为制约内容生产大规模突破的瓶颈。

  PGC、UGC分别被产能和质量所限制,难以满足迅速增长的内容需求。

  AIGC能够突破人工限制,带来元宇宙所需的丰富多样的内容。

  生成对抗网络GAN不断演进,助力AI生成图像逐步完善。

  AI技术逐步进入无监督学习时代,支撑元宇宙内容生成产业化发展。

  AIGC逐步落地引擎渲染和表情生成,显著提升元宇宙内容生产效率

  AI加持引擎和渲染技术,加速实现元宇宙中大量环境、建筑的构建需求。

  深度学习驱动生成面部表情,实现数字人物拟人化关键突破。

  NLP:“智能化交互”的AI技术核心,是瓶颈也是机遇所在

  技术视角下,NLP为数字世界中的人物赋予智慧

  NLP目的即是计算机系统能够和人类进行自然语言交互,是赋予数字世界人物智能的关键技术。

  回溯NLP历史,2012年深度学习在学界引起轰动、2018年大模型Transformer路线兴起是重要里程碑事件。

  相较传统NLP模型,Transformer预训练大模型在通用性、动态调整能力和强泛化性三方面均有所突破。

  基于Transformer的GPT与BERT标志着NLP大模型路线的开端,自此NLP驶入发展快车道。

  NLP发展到哪儿了?Transformer为NLP带来里程碑式技术飞跃,但NLP仍存在诸多技术和商用瓶颈。

  缺乏独立应用场景是NLP难以孵化大型公司的重要因素。

  NLP支持“智能化交互”,大模型助力跨越商业落地分水岭

  技术层面,NLP底层技术基础主要包括语音识别(ASR、STT)、自然语言理解(NLU)、自然语言生成(NLG)技术、语音合成(TTS)和语音转换技术。

  近年NLP技术加速发展,有望真正落地智能化交互领域。

  智能化交互发展到哪里了?NLP为元宇宙中的交互环节注入感知与推理 “智能”,从技术来看,智能化交互技术发展远没达到天花板。

  从英伟达Omniverse看AI赋能数字世界的道与术

  Omniverse是英伟达与元宇宙连接的平台工具,是位于应用软件之下的技术底座和平台工具箱。

  2021年Omniverse Avatar(阿凡达平台)发布,英伟达引入更深层次的AI技术布局元宇宙。

  技术基础:贯穿内容生成到智慧赋予的AI技术工具箱

  AI技术为Avatar强势赋能,以数字世界的内容生成和智能交互为主要方向,其中NLP为核心布局点。

  Avatar的语音识别基于英伟达Riva工具包,由Megatron NLP大规模预训练模型和Merlin推荐引擎共同支持。

  NVIDIA Megatron:大装置+大模型路径夯实NLP基础

  ►训练框架:NeMo Megatron为大模型训练打下基础

  ►大模型:Megatron 530bn成为2021年全世界参数量最大的可定制语言模型

  ►推理平台:NVIDIA Triton推理服务器为AI模型提供跨平台推理能力

  NVIDIA Merlin:为Avatar提供深度学习推荐引擎

  Merlin为Avatar平台推荐系统提供助力,能够提升推荐系统的加速和推理速度。

  Merlin框架具备大规模数据处理能力,以支撑深度学习推荐需求。

  NVIDIA Metropolis:计算机视觉框架,Avatar的感知能力底座

  Metropolis是端到端的计算机视觉(CV)框架,为Avatar提供感知能力。

  NVIDIA Video2Face和Audio2Face:实现AIGC的自动化内容生成

  Audio2Face以AI实现语言表情自动化生产,取代美术师工作量。

  AI技术进步推动数字人产业迈入新阶段

  数字人(又名虚拟人、虚拟形象),是存在于虚拟世界中具备多重人类特质的数字化人物。

  数字人产业的发展脉络体现了元宇宙中应用的AI技术演进路线。

  技术基础:深度学习是数字人发展的分水岭

  回溯数字人发展史,以深度学习为代表的AI技术引领数字人步入发展新阶段。

  依据AI渗透程度,具备深度理解智能与较高自动化水平的数字人可定义为“AI数字人”。

  对比国内外,国内AI在数字人中的应用尚处于较初级阶段,国外底层AI技术更为成熟且应用更加广泛。

  应用案例:数字人商业价值初现,场景落地多点开花

  当前阶段数字人的应用主要集中在文娱领域的虚拟偶像/IP,以及特定行业场景中的数字员工。

  ►文娱领域:AI助力虚拟偶像“Eternity”和“yoyo鹿鸣”生成形象和声音

  虚拟女团“Eternity”使用AI技术打造类人外表,跨越“恐怖谷效应[1]”。

  虚拟偶像“yoyo鹿鸣”使用AI技术合成声音。

  ►其他垂直行业:AI驱动数字员工应用于传媒/金融/文旅/体育等行业场景

  新闻领域中,央视新闻AI手语主播为听障人士提供手语翻译服务。

  金融领域中,浦发银行“小浦”引领金融服务新模式。

  AI虚拟偶像及数字员工已能在特定领域提供媲美甚至超越真人的娱乐及服务,但其陪伴交互、思考决策能力仍有待加强。

  未来畅想:道术并举,内外兼修

  技术演进:内容制作技术和底层AI模型有望不断迭代升级

  制作技术进步:虚拟世界数字人“外在”拟人化程度近乎真实

  以3D渲染为代表的AIGC制作技术进步将使得虚拟世界和数字人的“外在”更加真实。

  交互能力突破:数字人的“内在”将更加丰满

  以NLP为代表的底层技术突破将使得数字人的“内在”更加丰满。

  ►多模态交互:全面、立体地感知世界

  多模态交互使数字人更加立体地感知世界,能赋予其类人脑的全面认知。

  ►多语言模型:架起元宇宙的沟通桥梁

  多语言模型帮助元宇宙中的人们跨越语言障碍,架起沟通的桥梁。

  以Meta发布多语言模型XLS-R为例,多语言数字人有望助力突破元宇宙中的语言障碍。

  ►知识图谱:赋予数字人个性与更高阶智能

  通过实现垂直领域的深度学习和知识库的动态更新,知识图谱能够赋予数字人个性和更高阶的智能。

  ►决策AI:让数字人知人知面更知“心”

  决策AI赋予数字人预判用户行为、帮助用户决策的能力,提供知人知面更知“心”的服务。

  应用方向:AI伙伴陪伴“排忧”,通用虚拟助理帮助“解难”

  展望未来,AI伙伴和通用虚拟助理能够与人类产生情感连接、提供个性化服务,二者有望随AI技术进步获得大规模应用推广。

  风险提示

  深度学习等AI技术进步不及预期。

  下游落地应用进度不及预期。

  [1] 指人类对机器人的正面情感会随机器人与人类相似度的提升而愈发强烈,但当该相似度达到某一定特定值时,人类对机器人的情感将转向反面,甚至产生恐惧和反感;在该相似度进一步上升,越过恐怖谷谷底后,人类对机器人的好感度又将回升。

  [2] Bilingual Evaluation Understudy(双语评估替换),是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。

  文章来源

  本文摘自:2022年7月16日已经发布的《元宇宙系列之AI+数字原生:AIGC涌内容生成之浪,NLP筑智能交互之基》

  魏鹳霏 SAC 执业证书编号:S0080121070252

  于钟海 SAC 执业证书编号:S0080518070011 SFC CE Ref:BOP246

  陈星宇 SAC 执业证书编号:S0080121020020

  钱 凯 SAC 执业证书编号:S0080513050004 SFC CE Ref:AZA933

免责声明:中金网发布此信息目的在于传播更多信息,与本网站立场无关。中金网不保证该信息的准确性、真实性、完整性、有效性等。相关信息并未经过本网站证实,不构成任何投资建议,据此操作,风险自担。