南京大学研究生(南京大学研究生招生网)




南京大学研究生,南京大学研究生招生网

本期为TechBeat人工智能社区465线上Talk !

北京时间12月22(周四)20:00腾讯AI Lab研究员——童湛&南京大学计算机科学与技术系硕士研究生——谈婧的Talk将准时在TechBeat人工智能社区开播!

他们与大家分享的主题是:“基于注意力机制的视频自监督表示学习和时序动作检测”, 届时将分享 在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能; 2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

Talk·信息

主题:基于注意力机制的视频自监督表示学习和时序动作检测

嘉宾 :腾讯AI Lab研究员 童湛

南京大学计算机科学 技术系 硕士研究生 谈婧

时间:北京时间12月22日(周四) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

基于注意力机制的视频自监督表示学习和时序动作检测

视频理解已经成为现阶段人工智能领域的研究热点和难点,视频自监督表示学习和时序动作检测是其中的关键技术。注意力机制(Attention)已经在视觉、语音、自然语言处理等领域展现了强大的表示和建模能力。在本次Talk中,我们将介绍在视频理解领域的注意力机制设计和学习方法,包括1)视频掩码自编码器VideoMAE,设计了高掩码率的通道掩蔽策略,有效实现了视频Transformer的预训练,在众多下游任务展现了优异的识别性能;2)视频时序动作检测器PointTAD,提出了基于稀疏点表示的多类时序动作检测框架,通过动态交互和解码模块,实现了多类别并发动作实例的并行解译。

基于掩码和重建的视频自监督预训练范式

目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。在这个工作中,我们利用掩码式自监督预训练的方式对Vision Transformer进行预训练。我们设计了一种带有极高掩码比率的管道式掩码策略,并且提出了视频掩码自编码器(VideoMAE),释放Vision Transformer在视频理解相关任务上的强大表征能力。

Talk大纲如下:

  • 问题引入

  • 目前领域存在的问题

  • 方法:视频掩码自编码器

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

基于可学习查询点的多类别时序动作检测框架

经典时序动作检测任务往往局限于同一个视频中只包含单一类别、不重叠动作的理想情况。但在现实场景中,不同类别的动作常常同时发生。因此,我们关注多类别场景下的时序动作检测,旨在检测多类别视频中所有的动作。该任务具有着细粒度动作识别和并发动作的精细定位两大挑战。为了应对这些挑战,我们在NeurIPS2022提出PointTAD,可以灵活地基于一组可学习的查询点同时定位动作边界帧和关键帧,构建精细动作表征。

Talk大纲如下:

  • 问题引入:时序动作检测是什么?为什么要研究多类别场景下的时序动作检测?

  • 相关工作及存在的问题

  • 方法:查询点的核心思想、PointTAD模型总览、动作查询量的更新流程、可学习查询点与多层次交互模块的具体设计

  • 实验:消融实验与结果

  • 可视化分析

  • 总结

Talk·预习资料

  • paper: https://arxiv.org/abs/2203.12602

  • code: https://github.com/MCG-NJU/VideoMAE

  • paper: https://arxiv.org/abs/2210.11035

  • code: https://github.com/MCG-NJU/PointTAD

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

童湛

腾讯AI Lab研究员

童湛,腾讯AI Lab研究员,硕士毕业于南京大学计算机科学与技术系,导师为王利民。主要研究方向包含计算机视觉、深度学习、视频理解、视频自监督表征学习等。

谈婧

南京大学计算机科学与技术系硕士研究生

谈婧,南京大学计算机科学与技术系硕士研究生,导师为王利民教授,本科毕业于南京大学匡亚明学院计算机方向,未来前往香港中文大学MMLab攻读博士。硕士期间在计算机视觉和机器学习顶会ICCV和NeurIPS上作为第一作者发表两篇工作。主要研究方向包含计算机视觉、深度学习、视频理解、时序动作检测。

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

⤵一键送你进入Talk页面

南京大学研究生(南京大学研究生招生网)

2023考研秘籍

跟我一起考研吗?马上关注我分享独家资料您