AI跳舞哪家强?是 AI 努力学习的一种能力
这次,Transformer 参与了舞蹈生成任务。
在艺术领域,AI 有着各式各样的应用,如 AI 生成音乐、AI 绘画。
跳舞,也是 AI 努力学习的一种能力。
此前,以音乐的风格、节奏和旋律作为控制信号来生成 3D 舞蹈动作的 DaceNet 曾红极一时。
如今,DanceNet 迎来了新的挑战者——来自谷歌的最新研究 AI Choreographer:给定一段 2 秒的指导动作,AI 模型可以按照音乐节奏生成一长段自然的舞蹈动作。
生成的舞蹈效果是这样的(遗憾的是动图没有声音):
而和 DanceNet 这些同类研究相比,谷歌新方法的效果更为明显。左边两种方法生成的舞蹈动作像「抽风」,该新方法则更加流畅自然:
值得注意的是,这还是一个基于 Transformer 的模型。
论文地址:https://arxiv.org/pdf/2101.08779v1.pdf
项目地址:https://google.github.io/aichoreographer/
下面让我们看下论文细节:
通过编排与音乐节拍一致的动作模式来跳舞是人类的一项基本能力。舞蹈是所有文化中的通用语言,如今,许多人在多媒体平台上通过舞蹈来表现自己。在 YouTube 上最受欢迎的视频是以舞蹈为主的音乐视频,例如 Baby Shark Dance、江南 Style,在互联网信息传播中,舞蹈成为强大的传播工具。
然而,舞蹈是一种艺术形式,即使是人类,也需要专业培训才能使舞蹈演员掌握丰富的舞蹈动作曲目,创造出富有表现力的舞蹈编排。从计算方面来讲更具有挑战性,因为该任务需要有能力生成一个连续的高运动学复杂度动作,捕捉与伴奏音乐的非线性关系。
在这项研究中,来自南加州大学、谷歌研究院、加州大学伯克利分校的研究者提出了一个基于 transformer 的跨模态学习架构和一个新的 3D 舞蹈动作数据集 AIST++,该数据集用来训练一个生成 3D 舞蹈动作的模型。
具体来说,给定一段音乐和一个短的(2 秒)种子动作(seed motion),本文模型能够生成一个长序列的逼真 3D 舞蹈动作。该模型有效地学习了音乐动作的相关性,并且可以生成不同输入音乐的舞蹈序列。研究者将舞蹈表示为一个由关节旋转和全局平移组成的 3D 动作序列,这使得输出可以很容易地迁移至动作重定向等应用,具体流程如下图 1 所示:
在学习框架方面,该研究提出了一种新的基于 transformer 的跨模态架构来生成基于音乐的 3D 动作。该架构建立在已被证明对长序列生成特别有效的基于注意力的网络 [15, 62, 3, 71]上,并从视觉和语言的跨模态文献 [71] 中获得灵感,设计了一个使用三个 transformer 的框架,分别用于音频序列表示、动作表示和跨模态音频 - 动作表示。其中动作和音频 transformer 对输入序列进行编码,而跨模态 transformer 学习这两种模态之间的相关性,并生成未来的动作序列。
该研究精心设计的新型跨模态 transformer 具有自回归特性,但需要全注意力(full-attention)和 future-N 监督,这对于防止 3D 运动在多次迭代后冻结或漂移非常关键,正如先前关于 3D 运动生成所述[4,3]。由此生成模型为不同的音乐生成不同的舞蹈序列,同时生成长时间的逼真动作,在进行推理时不受漂移冻结的影响。
AIST++ 数据集
为了训练模型,该研究还创建了一个新的数据集:AIST++。该数据集在 AIST(多视角舞蹈视频库) [78]基础上进行构建。研究者利用多视角信息从数据中恢复可靠的 3D 动作。注意,虽然这个数据集具有多视角照片,但相机并未校准,这使得 3D 重建非常具有挑战性。
AIST++ 数据集包含高达 110 万帧伴有音乐的 3D 舞蹈动作,据了解,这是此类数据集中最大的一个。AIST++ 还跨越了 10 种音乐类型、30 个主题和 9 个视频序列,并具有恢复的相机内在特性,这对于其他人体和动作研究具有很大的潜力。
数据集地址:https://google.github.io/aistplusplus_dataset/
该研究创建的 AIST++ 是一个大规模 3D 舞蹈动作数据集,包含大量伴随音乐的 3D 舞蹈动作。其中每一帧都具备以下额外标注:
9 种视角,包括摄像机的内外参数; 17 种 COCO 格式的人类关节位置,包含 2D 和 3D 形式; 24 个 SMPL 姿势参数,以及全局扩展和平移。
下表 1 对比了 AIST++ 和其他 3D 动作与舞蹈数据集,AIST++ 对于现有的 3D 动作数据集是一种补充。
此外,AIST++ 数据集包含 10 个舞种:Old School(Break、Pop、Lock 和 Waack)和 New School(Middle Hip-hop、LA-style Hip-hop、House、Krump、Street Jazz 和 Ballet Jazz),参见下图 3:
基于音乐的 3D 舞蹈生成
问题描述:给定一个 2 秒的动作种子示例 X = (x_1, . . . , x_T) 和音乐序列 Y = (y_1, . . . , y_T'),生成时间步 T + 1 到 T' 期间的未来动作序列 X'= (x_T+1, . . . , x_T'),T' >> T。
跨模态动作生成 Transformer
该研究提出一种基于 Transformer 的网络架构,它可以学习音乐 - 动作关联,生成不凝滞的逼真动作序列。架构图参见下图 2:
该模型具备三个 transformer:
动作 transformer f_mot(X):将动作特征 X 转换为动作嵌入 h^x_1:T; 音频 transformer f_audio(Y):将音频特征 Y 转换为音频嵌入 h^y_1:T'; 跨模态transformer f_cross(h^xy_1:T +T'):学习动作和音频两个模态之间的对应,并生成未来动作 X'。
为了更好地学习两个模态之间的关联,该研究使用了一个深度为 12 层的跨模态 transformer。研究者发现,跨模态 transformer 的深度越大,模型对两种模态的关注越多(参见下图 6)。
实验
定量评估
研究者报告了该方法与两种基线方法在 AIST++ 测试集上的定量评估结果,见下表 2:
动作质量:从上表中可以看出,该方法生成的动作序列关节和速度分布更接近真值动作。
动作多样性:表 2 展示了,相比基线方法,该研究提出的方法能够生成更多样的舞蹈动作。控制变量研究结果表明,网络设计,尤其跨模态 transformer,是带来这一差异的主要原因。研究者将该方法生成的多样化舞蹈动作进行了可视化,参见下图 7:
动作 - 音乐关联:从表 2 中还可以看出,该方法生成的动作与输入音乐的关联性更强。下图 5 中的示例展示了生成动作的运动节拍与音乐节拍能够实现很好地匹配。
但是,在与真实数据进行对比时,这三种方法都有很大的改进空间。这表明,音乐动作关联仍然是一个极具挑战性的问题。
控制变量研究
跨模态 Transformer:该论文利用三种不同设置研究跨模态 Transformer 的功能:1)14 层动作 transformer;2)13 层动作 / 音频 transformer 和 1 层跨模态 Transformer;3)2 层动作 / 音频 transformer 和 12 层跨模态 Transformer。
下表 3 表明跨模态 Transformer 对于生成与输入音乐关联性强的动作至关重要。
如图 6 所示,更深的跨模态 Transformer 能够更加关注输入音乐,从而带来更好的音乐 - 动作关联度。
因果注意力或完全注意力 Transformer:研究者还探索了完全注意力机制和 future-N 监督机制的效果。从下表 4 中可以看出,在使用因果注意力机制执行 20 秒长程生成时,生成动作和真值动作的分布差异很大。对于 future-1 监督设置下的完全注意力机制而言,长程生成期间的结果会出现快速漂移,而在 future-10 或 future-20 监督设置下,模型可以生成高质量的长程动作。
相关阅读
-
机器人保险新道理 智能机器人也有工伤险
在工厂车间,24小时不停流转的机器人工人与人类协作互通,共同从事... -
2022年人工智能技术成熟度曲线报告 决...
Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称... -
首届人工智能安全大赛收官 决出三大冠军
以共筑AI安全 安享智能未来为主题的AISC首届人工智能安全大赛圆满... -
特斯拉有望在明年一季度开始生产电池 ...
9月14日消息,据国外媒体报道,特斯拉2019年确定建设的柏林超级工厂... -
韩国半导体出口同比增长近8% 芯片仍占...
9月13日消息,据国外媒体报道,韩国贸易、工业和能源部此前公布的数... -
2022年上半年智能汽车 净利同比增近2000%
近期,我国多家智能汽车供应链上市公司陆续公布了2022年中报,盖世...
精彩推送
-
2024 年助力品牌全域经营 SaaS 工具
海量智能是一家专注于智能营销工具研发和用户运营解决方案的创新型 -
实现全流程国产化 蜜巢政务大模型3.0重...
2024年7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议 -
加速“人工智能+”总台研究院主办活动来啦
“人工智能必须是发展与治理同步,政府要划定边界,特别要在国际上加 -
国科微全系边端AI芯片闪耀WAIC2024:加...
7月4日,2024世界人工智能大会(以下简称“WAIC2024”)在上海开幕 -
钛虎科技机器人震撼发布:T170A“瑶光”...
2024年7月4日 —— 在全球瞩目的2024世界人工智能大会(WAIC)暨人... -
拐点已在眼前,北汽蓝谷积聚向上势能
伴随着中国新能源汽车市场的高速发展,各家新能源汽车企业的表现都备 -
年轻员工猝死频发:沃民高科AI引擎驱动...
在科技快速发展的今天,高强度的工作节奏已成为许多行业尤其是科技 -
强者恒存!曙光存储重磅新品再破存力上限
6月25日,曙光存储召开了主题为“先进存力,凝聚数据要素”的新品暨... -
国产“Omniverse”诞生! 联想新视界重...
近年来,以英伟达Omniverse为代表的元宇宙平台在元宇宙国际竞争中呈 -
丝芭传媒旗下美踏元宇宙和鹦鹉人启动内...
6月26日,丝芭传媒旗下酝酿已久的创新AIGPT及AIGC生成工具APP“鹦鹉 -
李德毅院士:人类的四种基本认知模式
编者按人类认知的整个活动,就是如何解释、解决人类在生存和繁衍过 -
视觉生成式AI如何引领各行各业创新?CVP...
导语:50+ 论文成果、CVPR 自动驾驶大挑战赛“端到端规模驾驶“获 -
AI下半场 宁畅智算中心以全栈全液助推...
当前,人工智能以前所未有的速度塑造各行各业,全国范围内对智算中 -
身怀全栈全液能力 宁畅打造智算中心部...
当前,人工智能以前所未有的速度塑造各行各业,全国范围内对智算中 -
淘宝直播“勇往直前的CEO”再添一员,AI...
自淘宝推出勇往直前的CEO计划以来,一大拨企业家正涌向淘宝直播间。6... -
存算“全能王”!中科可控重磅发布新一...
当前,人工智能应用快速落地、多模态大模型加速迭代,亿万数据让计 -
高能来袭|联想拯救者携手《黑神话:悟空...
从2020年首次发布实机演示视频以来,《黑神话:悟空》便在全球范围 -
YYDS!联发科携最新AI创新应用亮相COMPUTEX
近日,备受全球瞩目的COMPUTEX 2024科技展会在热烈的氛围中拉开帷 -
广西村支书用AI制作视频带货,网友:接...
近日,一则广西勒水村的新闻屡见报端,当地村民用AI做短视频带货,推广 -
COMPUTEX 2024开展:联发科大秀全景AI...
在最近开幕的COMPUTEX 2024科技展会上,联发科展示了其最新的AI技 -
“AI+全场景”!中科可控AI工作站来袭
近年来人工智能技术极速发展,“AI+”已然成为行业用户对于体验升级... -
阿丘科技:生成式AI与行业视觉大模型驱...
5月21日,阿丘科技CEO黄耀应邀参加北京机器视觉助力智能制造创新发展 -
AI赋能 智赢百业 中国移动成功举办AI+...
5月25日,在第七届数字中国建设峰会期间,中国移动举办了以“AI赋能 -
直击2024年数字中国峰会中国移动AI+行业...
5月25日,数字中国峰会中国移动AI+行业分论坛在福建福州盛大召开, -
5月23日-27日@数字中国建设峰会,每日互...
一年一度,相约福州。5月23日至27日,第七届数字中国建设峰会系列活 -
天工AI搜索解读《如懿传》的“招黑体质”
《如懿传》又“火”了。同为“宫斗”题材的清宫戏,相比于至今仍在... -
AVK119简介:SCI 最新的变频涡旋压缩机
AVK119采用三菱电机专利的最新椭圆形涡旋技术设计,与相同尺寸的压 -
普惠AI破局视觉智能化 中小企业迎来发...
在数字化转型浪潮席卷全球之际,视觉智能化作为AI技术的重要分支,正 -
官宣!仰韶彩陶坊酒连续十一年荣膺“黄...
三月三,拜轩辕。在中国传统文化的传承中,这一敬拜黄帝先祖的节日 -
全国人大代表、中国移动辽宁公司总经理...
“数字乡村建设有助于促进农业全面升级、农村全面进步、农民全面发 -
热辣滚烫 盈出精彩|LG gram Pro AI...
LG gram于今年1月份上市了首款AI超轻薄本。它延续了轻薄长续航的基 -
从这部微电影开始,传承一杯“家乡味”
年中,一曲土中带潮的《恐龙抗狼》,火爆全网;年终,一支笑中带泪 -
生成式AI就绪 英特尔发布第五代至强可...
实用化 AI 算力又升上了一个新台阶。随着AI大模型加速迭代,智能 -
泰瑞应急数字孪生底座赋能防灾减灾,提...
近年来,灾害频发,给人们的生命和财产安全带来了巨大威胁。为提升 -
借助AI 数字人,光谷电商科技为什么成...
随着AI技术的蓬勃发展,数字化时代的大幕正式拉开。在这个时代,电 -
性价比提升超30%,腾讯云发布新一代基于...
基础设施的硬实力,愈发成为云厂商的核心竞争力。11月24日,腾讯云 -
山东原创《丝路》动画片央视首播
由枣庄市一甲动漫制作股份有限公司打造的大型原创52集《丝路》动画 -
2023深圳高交会今日开展,AI创新先睹为快!
2023深圳高交会今日盛大开幕,数据显示有超过100个国家和地区组团, -
2023深圳高交会IT展盛况:AI技术成焦点...
11月15日-19日,中国国际高新技术成果交易会(简称:高交会)在深圳 -
2023第二届长三角国际汽车产业及供应链...
2023第二届长三角国际汽车产业及供应链博览会将于2023年10月26-28日 -
“全球精品家轿”2024款艾瑞泽5焕芯上市...
畅销全球80多个国家和地区、斩获全球100万用户的艾瑞泽5,再次焕新 -
Colossal-AI助力智能化升级新时代
在这个快速发展的数字化时代,人工智能(AI)作为推动社会进步的核 -
当远铁路跨焦柳线特大桥成功转体
10月11日凌晨,湖北铁路集团当远铁路跨焦柳线特大桥转体成功,为当 -
微盟集团同时入选恒生人工智能、传媒指...
9月25日,恒生指数公司推出恒生人工智能主题指数和恒生传媒指数,微 -
锐进 求新 创无限 | 品达集团产品战...
2023年9月20日,“锐进、求新、创无限” 品达集团产品战略发布会暨 -
生态出海高歌猛进,海外月销3万辆,日系...
如今,中国汽车迎来了百年一遇的窗口期,同时汽车市场也进入了白热 -
孙树峰院士:激光技术的革命,开启未来...
9月1日,在智能制造助力高质量发展高峰论坛上,俄罗斯自然科学院外籍院 -
国产车赢麻了!中国品牌车企占泰国电动...
国产车赢麻了!中国品牌车企占泰国电动车市场8成份额 -
2023新思科技开发者大会:以创新引领航...
中国上海–9月8日,芯片行业年度嘉年华“2023新思科技开发者大会”... -
基于Android™ 14 Beta的 ColorOS 1...
9月11日,OPPO开启了基于Android™14Beta的ColorOS14全球公测尝鲜,首 -
公司回应禁止管理层买、开理想汽车:情...
公司回应禁止管理层买、开理想汽车:情况属实、律师 理想官方表态 -
上市告吹后 开心汽车宣布并购威马
上市告吹后开心汽车宣布并购威马 -
格局打开!小米汽车获SIG认证:支持苹果...
格局打开!小米汽车获SIG认证:支持苹果CarPlay -
TrendForce集邦咨询: NAND Flash第四...
Sep 11,2023----近日,三星(Samsung)为应对需求持续减弱,宣布9月起扩 -
真“自动挡”来了!特斯拉新款Model 3...
真“自动挡”来了!特斯拉新款Model3可自动选择前进后退 -
“人工智能+”,点燃智能制造发展新引擎...
近日,21ic有幸采访了辽宁省人工智能学会理事长李鸿儒教授,围绕“... -
全国唯一综合性种植资源库 四川省种质...
9月9日,第二届天府国际种业博览会暨四川省种质资源中心库揭牌仪式在成 -
问界M9率先用上!华为AR-HUD有多强:75...
问界M9率先用上!华为AR-HUD有多强:75寸画幅彻底干掉仪表盘 -
一万买到多少续航?新势力又出奇怪榜单...
一万买到多少续航?新势力又出奇怪榜单:特斯拉倒数第一 -
无锡相关部门回复网友反映某学校使用过...
2023年9月8日14时50分,有网友反映无锡市梁溪区连元街小学午餐使用了过 -
礼让救护车、搬抬婴儿车……青岛街头,...
救护车呼啸而至,驾驶员快速打方向盘让出生命“通道”;乘客推婴儿... -
我要打十个!消息称华为ADS 2.0年底开...
我要打十个!消息称华为ADS2 0年底开城数量调整:覆盖全国 -
坚守三尺讲台 潜心教书育人(教育时评)
金秋九月,1800多万名人民教师迎来属于自己的节日——第三十九个教... -
联想S205CPU更换(联想s205)
来为大家解答以上问题,联想S205CPU更换,联想s205很多人还不知道,现 -
获近40亿补贴!中国电池制造商国轩高科1...
获近40亿补贴!中国电池制造商国轩高科147亿在美建厂计划敲定 -
2023年9月9日云南省南瓜批发价格行情
2023年9月9日云南省南瓜批发市场价格最新行情监测显示:2023年9月9日云 -
西甲官方:马竞vs塞维利亚将在12月23日补赛
西甲官方宣布,此前由于暴雨延期的第四轮马竞vs塞维利亚的比赛,将会推 -
国家统计局:8月份居民消费价格同比上涨...
证券时报网讯,据国家统计局,2023年8月份,全国居民消费价格同比上涨0 -
10天内至少24城“认房不认贷”,效果如...
从“认房又认贷”到“认房不认贷”,一字之别的背后,是13年来我国... -
哈尔滨多车加油后开出不远就熄火 加油...
哈尔滨多车加油后开出不远就熄火加油站:进水了、已赔付 -
坚守三尺讲台 潜心教书育人(教育时评)
金秋九月,1800多万名人民教师迎来属于自己的节日——第三十九个教... -
长江通信:9月8日融资买入553.36万元,...
9月8日,长江通信(600345)融资买入553 36万元,融资偿还567 15万元, -
八音之韵丨来听听大音希声的太古之音
于高山流水之间 聆听声律之美 于明月松林之中 感受万物空明 这是人 -
华为加持的阿维塔新车 敢要价40万?
华为加持的阿维塔新车敢要价40万? -
抽奖券怎么写(抽奖卷模板)
今天之间网超哥来为大家解答以上的问题。抽奖券怎么写,抽奖卷模板相信 -
2035年停售燃油车不现实 世界第四大汽...
2035年停售燃油车不现实世界第四大汽车集团:我要卖到2050年 -
中国首款自研车规级7纳米芯片 “龙鹰一...
中国首款自研车规级7纳米芯片“龙鹰一号”性能如何?稍差于骁龙8155 -
行业首个!Flyme Auto获得泰尔“卓越级...
行业首个!FlymeAuto获得泰尔“卓越级”认证魅族:遥遥领先 -
领克08正式上市:92英寸无界AR-HUD 20.88万起
领克08正式上市:92英寸无界AR-HUD20 88万起 -
车评头条:中期提速能力意外 海马M3 1...
汽车已经成为人们生活的必须品了,很多车的适不适合自己很生疏,现在汽 -
近况曝光!72岁知名老戏骨街头被偶遇,...
所以如今有网友在社交平台上晒出偶遇到郑则仕,并且对方还如此精神,就 -
dnf二次觉醒任务(二次觉醒任务流程)
很多人对dnf二次觉醒任务,二次觉醒任务流程不是很了解那具体是什么情 -
暑假出游景点(暑假出游好去处)
诸多的对于暑假出游景点,暑假出游好去处这个问题都颇为感兴趣的,为大 -
兆邦基地产(01660.HK):张彧获委任为执...
格隆汇9月8日丨兆邦基地产(01660 HK)公告,董事会宣布:(i)许志聪已获 -
广汇能源遭遇外资抛售49.6万股|外资买卖
外资卖出:广汇能源(600256)(600256)于2023年9月7日遭遇外资抛售,数 -
白露至 各地一片农忙景象
白露节气已至,各地农民抢抓农时,田间地头一片农忙景象。在湖北省襄阳 -
张艺谋遗憾《坚如磐石》迟到:于和伟的...
极目新闻记者戎钰国庆档看什么?由张艺谋执导的都市罪案题材电影《坚如 -
警察叔叔发布“挑战令”全市7248人挑战成功
9月8日,第三届“百日零违法文明交通好榜样”颁奖仪式在清城区举行... -
或将采用“国风”设计:哪吒X内饰公布 ...
或将采用“国风”设计:哪吒X内饰公布专为年轻人打造 -
三种配色 7座布局 广汽合创MPV V09内...
三种配色7座布局广汽合创MPVV09内饰曝光10月13日上市首发 -
担保期过不过怎么办
担保期是否已经届满,需要根据具体情况分析。1、如果在担保合同中约定 -
中国正在开展HCFCs加速淘汰行动
中新社北京9月8日电(记者阮煜琳)中国生态环境部大气环境司有关负责人8 -
大众再放大招:ID.6 CROZZ 限时官降4....
大众再放大招:ID 6CROZZ限时官降4 5万售价25 89万起 -
138度超广角!70迈3K夜视流媒体后视镜将...
138度超广角!70迈3K夜视流媒体后视镜将开售:一次能看三车道 -
乘联会:8月乘用车市场零售192万辆,同...
乘联会:8月乘用车市场零售192万辆,同比增长2 5%,零售,乘联会,乘用车市场 -
载歌载舞打一个生肖 载歌载舞打一个生...
小枫来为解答以上问题。载歌载舞打一个生肖,载歌载舞打一个生肖具体是 -
交付1.2万成合资黑马!别克E5迎首次OTA...
交付1 2万成合资黑马!别克E5迎首次OTA:上电逻辑不再反人类 -
阿塞拜疆vs比利时比赛预测 阿塞拜疆vs...
阿塞拜疆vs比利时比赛预测,风暴体育讯北京时间9月9日21:00,新赛季欧 -
工行首席技术官:银行业财富管理面临挑...
工行首席技术官:银行业财富管理面临挑战,数字化转型是大势所趋,工行, -
“原子弹之父”奥本海默开什么车?凯迪...
“原子弹之父”奥本海默开什么车?凯迪拉克认领:1941款敞篷经典