数字人是什么？制作一个数字人，需要使用到以下的技术

发布时间：2024-11-18 23:32:00 浏览量：108

数字人简单来说就是使用计算机技术创造出的虚拟人物角色。这些数字人可以通过3D建模、动画和人工智能等技术来模拟人类的外表、行为和互动。虚拟数字人也是一种人，但是不同于现实中的人，虚拟数字人是存在于数字孪生世界中的“人”。它利用计算机数字建模技术，模拟任务形象，同时可以利用面部捕捉和动作捕捉技术来捕捉并模拟真实人物的表情变化和动作变化的虚拟人，有的甚至是具有语音识别、予以理解，模拟真人发话的AI能力的机器人。

当然因为数字人不光具有真人的语言、互动能力，它还具有具有真人的客服服务处理能力，所以虚拟数字人已经逐渐开始一些大学校园、大厅、营业厅进行客服替代。

数字人的表现形式有虚拟角色和数字化身两种。

数字人具有三大特点：

逼真形象。数字人具有和人类一样的逼真效果，包括表情、动作、语音等。拥有人的外观，具有特定的相貌、性别和性格等人物特征。

智能交互。数字人具有与人类自然、流畅的交流能力，能够理解语义、情感并做出恰当回应。拥有人的思想，具有识别外界环境、并能与人交流互动的能力。

自主行为。数字人的一个关键特点，指数字人能够独立地做出决策和采取行动，而不需要外部控制。具有用语言、面部表情和肢体动作表达的能力。

数字人的诞生发展和AI的发展密不可分，想了解数字人实现原理，首先要知道数字人的通用系统框架。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。

制作一个数字人，需要使用到以下的技术：皮肤渲染、头发制作、表情绑定、骨骼绑定、智能声音等。

1.皮肤渲染

皮肤渲染技术发展史。按时间分布，近20年皮肤主流渲染技术的发展可以总结列举如下：

次表面光照传输模型（Subsurface Light Transport, SSLT）[2001]

扩散剖面（Diffusion Profile）[2001]

偶极子（dipole）[2001]

纹理空间模糊（Texture Space Blur）[2003]

多极子（multipole）[2005]

屏幕空间模糊（Screen Space Blur）或屏幕空间次表面散射（SSSSS, Screen Space Subsurface Scattering）[2009]

路径追踪次表面散射（Path-Traced Subsurface Scattering）与光线步进（Ray Marching）[2009]

预积分的皮肤着色（Pre-Integrated Skin Shading）[2010]

可分离的次表面散射（SSSS, Separable Subsurface Scattering）[2015]等

需要注意的是，上面列出的时间点，可能并不是严格意义上的该技术提出的时间点，而是该技术在论文或会议上被提出，被大众熟知，被引入到皮肤渲染技术中的时间点。

2.头发制作

头发制作作者推荐采用AUTODESK Maya软件中的Xgen制作。XGen是一款实例化工具，最常用于通过实例化几何体创建头发或填充场景。主要有两种使用方法，具体取决于要执行的操作。交互式修饰和XGen描述几乎是相互独立，即，它们不进行交互（从一个系统转化为另一个系统时除外）。因此，最好先确定要通过修饰执行的操作，然后基于此选择合适的方法。XGen交互式修饰提供了一系列专用于创建所有头发和毛发样式的完整工具，其中包括雕刻笔刷、修改器和雕刻层。

交互式修饰描述和修改器是基于 Maya 的节点，因此它们可以在节点编辑器中进行操纵。这些节点在系统的图形处理单元 (GPU) 上进行计算，使笔刷笔划可以实时显示，从而提供无需预览生成的交互式工作流。交互式修饰头发的所有数据都将保存到 Maya 场景文件中。您还可以将修饰保存到基于 Alembic 的缓存文件。

XGen几何体实例化器描述（包括默认样条线和可修饰样条线描述）与交互式修饰工具或修改器不兼容。您可以将默认样条线描述转化为交互式修饰头发。

3.表情绑定

表情绑定有很多种方式，本篇文章以苹果的ARKit 52 BlendShapes为例进行说明。（1）什么是ARKit？ARKit是苹果在2017年WWDC推出的AR开发平台。开发人员可以使用这套工具为iPhone和iPad创建增强现实应用程序。

2018年6月5日，苹果全球开发者大会WWDC 2018 在加州圣何塞召开，会上，苹果宣布推出旗下AR工具的新版本：ARkit 2.0。

ARKit包含一些视图类，能够轻松通过 SceneKit 或 SpriteKit 呈现增强现实体验。如果你想要构建自己的渲染引擎 (或与第三方引擎整合)，ARKit 另有提供所有必要的支持，让你能够通过自定视图呈现增强现实体验。

ARKit并不是一个独立就能够运行的框架，而是必须要SceneKit一起用才可以，换一句话说，如果只有,而没有，那么ARKit和一般的相机没有任何区别。

4.骨骼绑定

在数字化人像动画中，如何展现人物的动态动作是一个关键问题。通过直接控制每个网格顶点的位移来模拟运动不仅计算复杂度高，数据存储需求大。于是，业界引入了“绑定” （Rigging）这一概念，以简化运动的表示。绑定主要分为两种形式：骨骼绑定和混合变形。不同项目的实际需求决定了绑定方案。在对客户端体积和运行效率有严格要求的手游中，常采用纯骨骼绑定，面部表情也由骨骼驱动。骨架是分层的有关节的结构，用于设定绑定模型的姿势和对绑定模型设置动画。骨架提供了一个可变形模型，其基础结构与人类骨架提供给人体的基础结构相同。

5.智能声音

智能声音包含智能声音合成和智能语音识别两部分内容。智能声音合成（TTS）：30个TTS声音，神经网络超自然人声，超过30个声音可选，自定义发音修正，音量，音调，语速，发音模式设置，支持真人声音复刻。智能声音合成（TTS）

内置声音库。神经网络超自然人声，超过30个声音可选

发音修正。自定义发音修正

发音设置。音量，音调，语速，发音模式设置

声音定制。支持真人声音复刻

智能语音识别（ASR）：超低延时智能语音识别，自定义热词。

实时语音识别。超低延时智能语音识别

自定义热词。自定义热词

谐音词纠错。谐音词纠错