全球AI顶会AAAI2021部分收录论文解析

来源：资质发布时间：2024-01-12 14:06:10　点击：1次

近日，全球AI顶会AAAI 2021以虚拟形式在线召开，并于会前公布了论文收录结果。AAAI 2021投稿论文总数达到“惊人的高技术水平”，9034篇投稿论文中，7911篇接受评审，最终1692篇被录取，录取率为21%；百度再创佳绩，一举贡献24篇优质学术论文，涵盖计算机视觉、自然语言处理、知识图谱、量子机器学习等多个领域，展示出行业领先的AI技术实力，同时这些技术创新和突破将有利于推进智能对话、智能办公、智慧医疗、智慧金融、智能交通等场景的落地应用，加速中国智能经济时代的到来。

资料显示，AAAI是国际AI领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一。会议的目的是促进人工智能(AI)领域的研究，以及AI研究人员、从业人员、科学家和附属学科工程师之间的科学交流。

视觉-语言预训练的目标是通过对齐语料学习多模态的通用联合表示，将各个模态之间的语义对齐信号融合到联合表示中，从而提升下游任务效果。已有的视觉语言预训练方法在预训练过程中没有区分普通词和语义词，学到的联合表示无法刻画模态间细粒度语义的对齐，如场景中物体（objects）、物体属性（attributes）、物体间关系（relationships）这些深度理解场景所必备的细粒度语义。本文提出了知识增强的视觉-语言预训练技术ERNIE-ViL，将包含细粒度语义信息的场景图先验知识融入预训练过程，创建了物体预测、属性预测、关系预测三个预训练任务，在预训练过程中更加关注细粒度语义的跨模态对齐，从而学习到能够刻画更好跨模态语义对齐信息的联合表示。作为业界首个融入场景图知识的视觉语言预训练模型，ERNIE-ViL在视觉问答、视觉常识推理、引用表达式理解、跨模态文本检索、跨模态图像检索等5个多模态典型任务上取得了SOTA效果，同时，在视觉常识推理VCR榜单上取得第一。

文档级关系抽取是近两年来信息抽取的热门研究方向之一，针对其涉及多个实体提及（Entity Mention）之间的复杂交互这一挑战，本文创新性地提出了实体结构（Entity Structure）这一概念，以依赖（dependency）的形式，对实体提及在文档中的分布进行定义，并设计了结构化自注意力网络（SSAN）在上下文编码的同时对实体结构可以进行建模。实验表明，SSAN可以有明显效果地地在深度网络中引入实体结构的先验，指导注意力机制的传播，以增强模型对实体间交互关系的推理能力。SSAN在包括DocRED在内的多个常用文档级关系抽取任务上取得了当前最优效果。

视频识别作为视频理解的基础技术，是近几年非常热门的计算机视觉研究方向。现有的基于3D卷积网络的方法识别精度优异但计算量偏大，基于2D网络的方法虽然相对轻量但精度不及3D卷积网络。本文提出一种轻量的多视角融合模块（MVF Module）用于高效率且高性能的视频识别，该模块是一个即插即用的模块，能够直接插入到现有的2D卷积网络中构成一个简单有效的模型，称为MVFNet。此外，MVFNet可以视为一种通用的视频建模框架，通过设置模块内的参数，MVFNet可转化为经典的C2D, SlowOnly和TSM网络。实验结果为，在五个视频benchmark（Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51）上，MVFNet仅仅使用2D卷积网络的计算量就能取得与当前最先进的3D卷积网络媲美甚至更高的性能。

任意形态文字阅读问题近几年受到慢慢的变多的关注，是学术界的研究热点。然而，现有的解决方案大多数是建立在检测模块和识别模块两阶段级联的框架或者基于单字的方法，这一些方法往往受困于比较耗时的NMS、区域特征提取（ROI）等操作，甚至是昂贵的单字粒度标注方式。针对以上问题，本文提出了一种全新的实时的单阶段任意形态文字端到端框架, 命名为PGNet。PGNet在模型单阶段前向推理的过程中能够将端到端文字提取要使用到的中心线、上下边界位置偏差、阅读方向、和每个像素点字符类别预测信息全部获取到位。紧接着，根据本文提出的核心思想-关键点聚合（Point Gathering），将标准CTC Decoder改造成了PG-CTC Decoder, 让其可以依据2D空间上的文本实例所在的中心线像素点位置做对应字符类别概率向量聚合，然后直接解码出文本实例的识别结果。PGNet无需额外的字符粒度标注成本，轻量化模型配置版本在精度可比以往SOTA方法同时加速超过1倍，在任意形态文本集合Total-Text上最优速度达到46.7FPS（NVIDIA-v100显卡），端到端精度能够达到58.4%，该方法为实时或者端上设备的OCR应用带来广泛的遐想。

机器学习擅长处理结构化的数据特征，其中分类问题因为其泛用性长期处在核心的研究地位。近年来随着量子机器学习的兴起，研究者们开始探索如何采用量子神经网络去完成针对经典和量子数据的分类任务。然而由于目前量子设备的局限性，训练过程中会出现诸多问题，例如：参数过多，训练代价太大，测试精度不高等等。针对这些不足，本文提出了一种基于“变分影子量子学习”的分类算法，该算法采用了一种特殊的“影子电路”组成的量子神经网络架构，通过滑动的影子电路提取特征信息。该工作基于百度飞桨上的量子机器学习工具集量桨（研发，数值实验根据结果得出该算法在相比于已有的量子分类算法具有更强大分类能力的同时，还大幅度减少了网络参数，降低了训练代价。

新型冠状病毒病（COVID-19）已经对日常的工作产生了严重的影响，并且仍在全世界肆虐。现有的非药物干预的解决方案常常要及时、准确地选择一个区域进行出行限制甚至隔离。在区域的选择中，已确定诊出的病例的空间分布已被视为选择的关键指标。虽然这样的措施已经成功地减缓或者制止了新冠疫情在一些国家的传播，但是该方法因为确定诊出的病例的统计数据通常是有延迟性和粗粒度性而被诟病。未解决这样一些问题，本文提出了一个名为C-Watcher的机器学习框架，旨在COVID-19从疫情重灾区传播到目标城市之前，预测出目标城市中每个社区的疫情感染风险。在模型设计上，C-Watcher从百度地图数据中抽取了多种特征来刻画城市中的居民小区。此外，为了在疫情爆发之前将有效的知识及时转移到目标城市，本文设计了一个具有创新性的对抗编码器框架来提取城市之间的共性特征。该办法能够与城市相关的移动特征中抽取有用信息，以达到在非常早期的在目标城市中进行精确的高风险社区预测的目的。利用COVID-19爆发早期的真实数据记录，对C-Watcher进行了的实验，实验根据结果得出C-Watcher能够在疫情早期有效的从大量居民小区中成功筛查出高风险小区。

出行需求预测在城市治理和多种在线服务中都有广泛应用。但是现有研究大多分布在在网格化区域出行需求预测，忽略了不同人群差异化的出行需求。针对这一问题，本文提出了一种全新的自适应互监督多任务图神经网络（Ada-MSTNet），可以有效捕捉不同群体在不同时空场景下的关系。具体地，通过构建多视角空间图和人群图，研究员同时捕捉了不一样的区域和群体的相关性。同时，本文提出了一种自适应多任务聚类方法，能更好地在相关性较高的任务之间共享信息。此外，还提出了一种互自监督策略，基于不同视角学习到的表征来监督另一视角中任务的聚类过程。Ada-MSTNet不但可以在不同群体和区域对应的任务间共享信息，还可以有很大效果预防不相关任务之间的噪音传播。在两个真实数据集上的实验结果也从多个角度证实了我们算法的优势。

异地POI推荐旨在为跨城出行的用户更好的提供推荐服务。而这些用户通常对目的地区域/城市并不熟悉，并只有少数的历史记录可以借鉴，因而异地推荐的主要挑战也是推荐系统中的一个经典问题——冷启动问题。直观上，用户在异地的行为与用户个人的偏好和用户的出行意图密切有关。而且，用户的出行意图复杂多变，也为准确理解异地用户的出行意图增加了难度。为此，本文提出了一种出行意图可感知的异地出行推荐方法。该方法与传统的异地出行推荐方法的主要区别体现在三个方面：首先，利用图神经网络，通过对历史用户的本地签到行为和异地签到行为进行挖掘，表征用户的本地偏好以及异地的空间地理信息约束；其次，用户的个体出行意图建模为通用出行意图与用户个体偏好的聚合，其中通用出行意图被建模成隐式出行意图的概率分布，并利用主题神经网络模型进行实现；第三，通过多层感知机对本地偏好与异地偏好的迁移进行刻画，同时，利用矩阵分解对异地POI的表征进行估计。最后，通过真实物理世界的跨城出行记录数据来进行实验，验证了方法的有效性。而且，该方法所学习到的意图表征能够在一定程度上帮助理解和解释用户的出行意图。

张量是高维数据的天然表示方法，张量分解是分析高维数据的重要工具。当前，张量分解已被成功应用于信号处理、数据挖掘、机器学习等领域。特别地，在盲源信号分离问题中，人们通过计算观测信号的高阶统计量（例如四阶累积量）——一个高阶张量的张量分解，可以分离出源信号。然而, 目前计算这种张量分解的方法要求知道相互独立源信号组的个数，以及每组源信号的大小。并且，即使在已知上述信息的条件下，现有方法常常不能收敛，并且抗噪性较差。本文所提出的高阶张量的盲块对角化分解方法成功解决了以上问题。张量的盲块对角化分解是一种通用工具，希望其能在更多场景中获得成功应用，特别是在信号处理与自动聚类中。

深度信息补全的目标是以稀疏的深度信息及对应的彩色信息作为输入，恢复更加密集准确的场景深度信息。现有的方法主要把深度信息补全视为单阶段的问题，在这一些方法中，特征提取和融合的不够充分，因此限制了方法的性能。为此，本文提出了一个两阶段的残差学习框架，包括sparse-to-coarse阶段和coarse-to-fine阶段。在sparse-to-coarse 阶段，以稀疏的深度信息和对应的彩色信息为输入，本文使用一个简单的CNN网络对稀疏的深度信息进行粗略的填充获得场景密集的深度信息；在coarse-to-fine阶段，以sparse-to-coarse阶段的结果和对应的彩色信息为输入，本文使用通道融合策略和能量融合策略提取获得更加有效的特征信息，因此能获得更优的场景密集深度信息。本文方法在目前的KITTI depth completion benchmark中排名第二，同时在室内和室外数据集的测试也证明了我们所提方法的先进性。

现有的医疗图像分割网络往往需要大量的有标注的数据才能取得比较好的分割结果。然而3D医疗图像的分割标注需要大量的专业相关知识和人力成本。因此本文提出一种数据增广的方法，即只利用一张有标注的图片和一些未标注的图片就可以生成大量的真实、多样且有标注的训练数据。本文首先通过图像配准来学习有标注图片到无标注图片之间形状和亮度的真实变换。其次通过VAE网络来学习这些真实变换的分布，并由此生成多样且真实的变换。最后将这些生成的变换作用到有标注图片上生成多样的有标注的图片，并用于分割网络训练。在两个单标注的医疗图像分割数据集上，本文方法超过了SOTA，且实验表明该方法具有更好的泛化能力。

本文认为通过简单的阈值操作进行三值量化导致了较大的精度损失，因而提出一种基于基—残差框架的低误差量化器。该量化器区别于普通阈值操作，通过从全精度权重中提取基与残差信息并结合得到重构三值权重，同时通过递归量化来精细化残差，可以在量化过程中为卷积核保留更多的信息，用以降低量化误差及准确度损失。本文的方法是通用的，能够最终靠递归地编码残差拓展到多bit量化上。大量的实验数据证明本文提出的办法能够在网络加速下得到较高的识别精度。

王蓬博认为，一方面运用人工智能等新技术减少相关成本是必经之路，另一方面则需要尽可能地创造场景。

风云气象卫星被誉为“离百姓生活最近的卫星”，它们24小时“瞭望”，时刻观测着全球的风云气象，日夜预报着每天的阴晴冷暖。

未来，“激光木材”在涉及国防军工、民用科技的照明领域，例如远距离岛屿、无接触室内外、深海、极端环境等，均具有广阔的应用前景。

研究团队基于自主发展的氮-空位色心制备技术，可控制备出相距约200纳米的三个氮-空位色心作为量子传感系统，通过对随机电场探测展示了这种新的量子传感范式。

C919首次执飞“上海虹桥—北京大兴”航线大型客机执行“上海虹桥—北京大兴”航线的商业航班，这是东航C919继“上海虹桥—成都天府”常态化商业运营之后，C919执行的第二条定期商业航线

许多天文事件，总会在宇宙中绽放“看不见的焰火”——X射线。刚刚发射升空的爱因斯坦探针卫星，专门用于捕捉这些“看不见的焰火”，可谓是宇宙天体爆发“捕手”。

近日，在宁夏回族自治区吴忠市同心县下马关镇三山井村，万头肉牛养殖场迎来了高规格的“牛专家”。

中国航天科技集团五院529厂研制的可为壁画消杀灭菌的机器人，近日在我国首届文物保护技术装备应用展亮相。

推进科学技术创新，发挥科普的非消极作用，对于中国人端稳手中的“饭碗”具备极其重大意义。习强调，要把科学普及放在与科学技术创新同等重要的位置。青年农业科学工作者既是科学技术创新的先锋，又是科普的主力军之一。

目前，中国移动、中国电信、中国联通纷纷加快400G全光网络建设，连接东数西算枢纽节点，算力协同能力逐渐增强。

火龙果营养丰富，果肉含植物性蛋白、膳食纤维、甜菜红色素、胡萝卜素、果糖、葡萄糖、各种维生素和矿物质等营养成分。

湖北省地质科学研究院古生物化石研究中心主任赵璧称，这是湖北首次发现结晶恐龙蛋化石，对于揭示恐龙产蛋过程和还原当时的古环境具备极其重大研究意义。

2024年1月1日，“爱达·魔都号”开启商业首航，执行上海至韩国济州、日本长崎和福冈为期七天六晚的航程。

让千年壁画重现华彩！太原北齐壁画博物馆不久前正式向公众开放，这是全国首座建设于壁画墓葬原址上的专题博物馆。在这里，人们不仅能从壁画中感受北朝时期贵族的生活，还能结合数字VR、动画长卷、人机互动等多种方式重新认识文物。

随着我们国家新能源汽车产业驶入“快车道”，充电桩作为与之匹配的基础设施而非常关注。特别是“超充”这一基于直流充电技术的高压快充方式，其最大输出功率可达600千瓦，最快能以“一秒一公里”的速度充电，可以极大使用户得到满足快速补能的需求，因此已成为全世界众多车企和能源厂家研发和布局的焦点。

工业与信息化部等8部门日前联合印发《关于加快传统制造业转变发展方式与经济转型的指导意见》，提出到2027年，传统制造业高端化、智能化、绿色化、融合化发展水平显著提升，并明确了一系列具体目标。

这一发现来自用AI对卫星图像的分析结果，这种方法有助于更好地追踪影响海洋的人类活动。其他人工智能确定了2.8万个与风力发电和石油生产相关的海上设施，其中迅速增加的海上风力涡轮机群数量超越了石油钻井平台等石油基础设施。

上一篇：河北电信与河北省人民医院一起推动5G+医疗在才智医院的运用

下一篇：英才大会智慧医疗！几秒钟找出所有可能的癌细胞！