秋无痕淘宝天猫优惠券网	秋无痕常用软件全功能装机光盘 2023年金秋版	秋无痕一键优化Windows 10专版	秋无痕一键优化Windows 11专版
秋无痕论坛官方QQ群	获取无痕币和提高等级

主题 : 谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle

使用道具 | 复制链接 | 浏览器收藏 | 打印

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605058
威望: 529687 点
无痕币: 105 WHB
贡献值: 0 点
在线时间: 62599(时)
注册时间: 2008-12-25
最后登录: 2024-05-19

0 发表于: 2021-09-22 17:50｜请将IE368导航设置为首页，支持论坛

只看楼主 | 小中大

0 谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle

管理提醒：本帖被 hexj9 从『Android(安卓)资源共享区』移动到本区(2021-09-22)

Transformer 又又接新活了 —— 这次谷歌用它搞了一个会根据音乐跳舞的 AI。

而这个 AI 也凭借着对音乐和舞蹈之间的关联的深刻理解，打败了 3 个同类模型取得 SOTA，登上了 ICCV 2021。

另外，除了代码开源，研究团队还随之一起公开了一个含有 10 种类型的 3D 舞蹈动作数据集。

心动的，搞起来搞起来！
这个 freestyle 怎么来？
前面咱们不是说，这个 AI 用了 Transformer 吗？
但这里的 Transformer 不是普通的 Transformer，它是一个基于完全注意力机制（Full-Attention）的跨模态 Transformer，简称 FACT。
为什么要搞这么复杂？
因为研究人员发现，光用单纯的 Transformer 并不能让 AI 理解音乐和舞蹈之间的相关性。
所以，这个 FACT 是怎么做的呢？
总的来说，FACT 模型采用了独立的动作和音频 transformer。
首先输入 2 秒钟的 seed 动作序列和一段音频，对其进行编码。

然后将 embedding（从语义空间到向量空间的映射）连接起来，送入跨模态 transformer 学习两种形态的对应关系，并生成 n 个后续动作序列。
这些序列再被用来进行模型的自监督训练。
其中 3 个 transformer 一起学习，采用的是不用预处理和特征提取，直接把原始数据扔进去得到最终结果的端到端的学习方式。
另外就是在自回归框架中进行模型测试，将预期运动作为下一代阶段的输入。
最终，该模型可以逐帧地生成一段（long-range）舞蹈动作。
下图则展示了该模型通过同一段种子动作（嘻哈风格）、不同音乐生成了四种舞蹈作品（霹雳舞、爵士芭蕾、Krump 和 Middle Hip-hop）。
有没有懂行的点评一下？

而为了让 AI 生成的舞蹈生动且和音乐风格保持一致，这个模型设计里面有 3 个关键点：

1、模型内部 token 可以访问所有输入，因此三个 transformer 都使用一个完全注意力 mask。这使得它比传统的因果模型更具表现力。
2、不止预测下一个，该模型还预测 N 个后续动作。这有助于模型关注上下文，避免在几个生成步骤后出现动作不衔接和跑偏的情况。
3、此外，在训练过程的前期还用了一个 12 层深的跨模态 transformer 模块来融合两个 embedding（音频和动作）。研究人员表示，这是训练模型倾听分辨输入音乐的关键。

下面就用数据来看看真实性能。

来自：评分选定顶端

回复引用评分

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605058
威望: 529687 点
无痕币: 105 WHB
贡献值: 0 点
在线时间: 62599(时)
注册时间: 2008-12-25
最后登录: 2024-05-19

1 发表于: 2021-09-22 17:51｜请将IE368导航设置为首页，支持论坛

只看该作者 | 小中大

打败 3 个 SOTA 模型
研究人员根据三个指标来评估：

1、动作质量：用 FID 来计算样本（也就是他们自己发布的那个数据集，后面介绍）和生成结果在特征空间之间的距离。一共用了 40 个模型生成的舞蹈序列，每个序列 1200 帧（20 秒）。

FID 的几何和动力学特性分别表示为 FIDg 和 FIDk。

2、动作多样性：通过测量 40 套生成动作在特征空间中的平均欧氏距离（Euclidean distance）得出。

分别用几何特征空间 Distg 和动力学特征空间 k 来检验模型生成各种舞蹈动作的能力。

3、动作与音乐的相关性：没有好的已有指标，他们自己提出了一个“节拍对齐分数”来评估输入音乐（音乐节拍）和输出 3D 动作（运动节拍）之间的关联。

下面是 FACT 和三种 SOTA 模型（Li 等人的、Dancenet、Dance Revolution）的对比结果：

可以看到，FACT 在三项指标上全部 KO 了以上三位。
* 由于 Li 等人的模型生成的动作不连续，所以它的平均动力学特征距离异常高，可以忽略。
看了数据，咱们再看个更直观的：

emmm，相比动作灵活的 FACT，其他两位看起来都有点“不太聪明”的亚子……
舞蹈动作数据集 AIST++
最后，再来简单介绍一下他们自己打造的这个 3D 舞蹈动作数据集 AIST++。
看名字你也发现了，这是基于现有的舞蹈数据集 AIST 的“加强版”，主要是在原有基础上加上了 3D 信息。
最终的 AIST++ 一共包含 5.2 小时、1408 个序列的 3D 舞蹈动作，跨越十种舞蹈类型，包括老派和新派的的霹雳舞、Pop、 Lock、Waack，以及 Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街头爵士和爵士芭蕾，每种舞蹈类型又有 85% 的基本动作和 15% 的高级动作。
（怎么感觉全是街舞啊？）
每个动作都提供了 9 个相机视角，下面展示了其中三个。

它可以用来支持以下三种任务：多视角的人体关键点估计；人体动作预测/生成；人体动作和音乐之间的跨模态分析。

来自：评分选定顶端

回复引用评分

加为好友

hexj9

千山同一月万户尽皆春千江有水千江月万里无云万里天

级别: 总版主

作者资料发送短消息

UID: 998
精华: 0
发帖: 605058
威望: 529687 点
无痕币: 105 WHB
贡献值: 0 点
在线时间: 62599(时)
注册时间: 2008-12-25
最后登录: 2024-05-19

2 发表于: 2021-09-22 17:51｜请将IE368导航设置为首页，支持论坛

只看该作者 | 小中大

团队介绍
一作李瑞龙，UC 伯克利一年级博士生，UC 伯克利人工智能研究室成员，Facebook Reality Labs 学生研究员。
研究方向是计算机视觉和计算机图形学的交叉领域，主要为通过 2D 图像信息生成和重建 3D 世界。
读博之前还在南加州大学视觉与图形实验室做了两年的研究助理。
本科毕业于清华大学物理学和数学专业、硕士毕业于计算机专业，曾在 Google Research 和字节 AI Lab 实习。

共同一作 Yang Shan，就职于 Google Research。

研究方向包括：应用机器学习、多模态感知、3D 计算机视觉与物理仿真。
博士毕业于北卡罗来纳大学教堂山分校 (UNC，美国 8 所公立常春藤大学之一)。
David A. Ross，在 Google Research 领导 Visual Dynamics 研究小组。
加拿大多伦多大学机器学习和计算机视觉专业博士毕业。