本篇文章3300字,读完约8分钟

机器的内心报道

sketchx实验室

“你的画是推测”是广泛流传于各种文化中的人类知识游戏,其形式简单,但高度体现了人类的认识智慧。 最近,在计算机图形学顶级会议siggraph asia上收到的论文提出了基于草图的生成优化方法。 在给出视觉概念的基础上,该模型可以实现比人类竞争对手更相似或更快的可识别的草图绘制。 近几十年来,ai在更多的游戏中逐渐达到了能够和人类进行同样竞技的水平。 从1997年在国际象棋比赛中获胜的deep blue,到活跃在电视智力竞赛项目jeopardy的ibm watson,从年deepmind开发的能够应对各种atari游戏的程序,到年中战胜职业围棋选手的alpan 至少对公众来说,所有的实例都把技术的突破和抽象计算的进步变成了具有观赏性的运动。

“人机对战又添新行业:这篇论文让机器在“你画我猜”中击败你”

在这样的背景下,很难相信ai能在你的绘画游戏中表现出好消息。 pictionary是受智力竞赛游戏启发的游戏,需要大致描绘视觉图像,其他人正在试图以最快的速度推测他/她画的东西。 这就是英国萨里大学sketchx研究所研究人员最近的研究成果,用对速度敏感、竞争主导的草图生成了ai——pixelor。 也就是说,如果给出视觉概念,pixelor就像人类的竞争对手一样,能够迅速地描绘出人类和机器能够识别的目标对象的草图。 将现实世界中许多嘈杂的图像放回草图,令人印象深刻。 这需要很强的抽象能力。 脸部视为椭圆形,由两个小椭圆形构成眼睛,弯曲的线段为鼻子,用半圆形模拟嘴巴。 这种感知图像的方法一般是孩子们高速发展认识理解能力的重要特征之一。 但是正如摩拉维亚悖论总结的那样,“对人类来说非常棘手的问题对计算机来说一般很简单,对人类来说非常容易的事情对计算机来说非常难解决”。 如果觉得抽象,这种大部分两岁的孩子天生就具备的基本技能,对机器智能来说是一个很大的挑战。

“人机对战又添新行业:这篇论文让机器在“你画我猜”中击败你”

与人的草图相关的计算机视觉工作集中于分析基于草图的识别[1]、语义分割[2]、美化[3]、3d推理[4]、检索框架下与现实图像的联系[ 5,6 ]等判别性任务 直到最近,独创性的事业sketchrnn中正如皮克斯通信制作人、萨里大学视觉与语音信号解决中心( cvssp )教授、sketchx实验室主任宋一夜( yi-zhe song )所说,“对pixelor来说,最重要的推理就是视觉识别最重要的笔划,这些笔划 我们已经发布了面向公众的pixelor版本。 我们希望人类玩家能够打破我们的ai模式,通过与ai的游戏,逐渐提高他们的游戏战略,从而更好地描绘玩家。 “”,ai首次展示了适应不同风格和抽象水平,同时像人一样识别素描的能力。

“人机对战又添新行业:这篇论文让机器在“你画我猜”中击败你”

但是,这对pixelor来说还不够。 我认为画是速度游戏。 你可能是个伟大的艺术家,但如果花12个小时画一只完美的猫,你会画得很坏你会画玩家。

[7]

你对pixelor模型做了什么

pixelor在两级框架中训练。

第一阶段,研究者以输入给定的训练草图集,按照随机的笔画顺序打乱各个个人草图,学习推测能够使该训练集的早期识别度最大化的笔画水平的排序为目的。 这是因为人类数据的原始排序不是最佳的。 这也是人类在你画的游戏中被经过精心设计训练的pixelor打败的深层原因。

很明显,为了达到改善草图线序的目标,要详细判断所有可能的线序,但会产生在计算上难以解决的巨大搜索空间。 pixelor使用了neuralsort [8],是一种微分可接受通过梯度( straight-through gradients )反向传递的排序算法,使用更先进的可学习感知特征代替启发式损失函数, 总之,该框架通过学习笔划得分策略避免了笔划顺序的组合搜索,实现了早期识别。

在第二阶段,pixelor基于以上述最佳笔划顺序更新的数据集训练从序列到序列的草图生成模型。 与以前的sketchrnn模型不同,研究者提出用最佳传输距离( optimal transport )代替基于kl分散度的方法(常见于变量自编码器)来约束嵌入特征空间。 这种设计的选择是基于对人类手写行为的直观注意。 面对同样的视觉概念,不同的个人可能在你的绘画游戏中表现出相似的竞技性,但他们依然有不同的素描策略。 从而,笔划序列的空间本质上是多模态分布,最佳传输距离可以更好地捕捉这种分布。

pixelor,不只是游戏

pixelor的意思不仅仅是玩游戏的新ai。 就像电脑系统既有我们相互作用的客户界面,也有后台代码一样。 所有重要ai游戏的里程碑背后都有更深层次的考量。 实验室之所以耗费大量时间和人力物力,不是为了在人类不再擅长的事件清单上再加一个,而是为了完善人工智能的基础能力,处理现实问题。

在pixelor的例子中,研究者的最终目的是让机器更好地了解在特定场景中对人类的重要性。 我们一看到一张照片,马上就会知道最应该注意的部分是什么。

例如,下班开车回家的时候。 路边风景如画,远处的招牌可能也感兴趣,但这比随时可能出现在你面前的行人更重要。 在你有意识地解决这些消息之前,大脑已经选择了最重要的细节。 我们怎么教电脑那个呢? 一个好的起点是寻找人类在手绘时如何优先考虑头部图像中突出的可识别的细节。 “从以前流传下来的照片中没有人类的主观输入,想要人类的数据。 手绘过程是人类理解和表现视觉场景的方法。 ”宋一夜教授这样说道。

我认为优秀的你需要画出玩家,像优秀的拳击手一样,知道实现某个目标所需的绝对最短路径。 从宏观上看,这些都是这篇siggraph aisa论文的更大意义。 这并不像教ai玩游戏那么简单,它有着让ai推理图像场景的重要之处,从而更好地泛化的大愿景。 从自动驾驶到智能机器人,这是一项必须尽快处理的任务。 论文地址: ayankumarbhunia.github.io /图片或图片/图片或图片

pixelor项目主页: sketchx.ai/pixelor

sketchx实验室主页: sketchx.ai

萨里大学cvssp主页: surrey.AC.uk/centre-vision-speech -信号处理

参考文献

[1]前屿、永新洋、yi-zhe song、相桃、Andtimothym.Hospeda les.sketch-a-Netthatbeatshumans.BMVC.( BMC

[2] ROSáliagschneiderandtinnetuytelaars.example -基本型电磁干扰和标记语言.信号图形。

[3] mikhailbessmeltsevandjustinsolomon.vectorizationoflinedrawingsviapolyvectorfields.siggraph

[4]万朝苏、东渡、新阳、世忠洲、Andhongbofu .交互式草图-基本通用通用通用型

[5]前屿、风柳、颐和松、陶巷、timothy m. hospedales、Andchengeloy.Sketchmethatshoe.cvpr。

[6] patsorn sangkloy、nathan burnell、cusuh ham、andjameshays.thesketchydatabase :学习资源基础架构. SS

[7] davidhaanddouglaseck.aneuralrepresentationofsketchdrawings.iclr

[8] aditya grover、eric wang、aaron zweig、Andstefanoermon.Stochasticoptimization OFSortingnetworksviacontinusrelaxatins

原标题:“人机对战又增加新的行业:这篇siggraph aisa论文让机器在‘你的画的推测’中打败你。”

浏览原文信息进行推荐

巴黎文艺新地标! 安藤忠雄将于下月对外开放

年,巴黎市将原巴黎证券交易所租赁给世界上最重要的现代艺术藏家、著名奢侈品集团开云集团创始人弗朗索瓦·皮诺...

标题:“人机对战又添新行业:这篇论文让机器在“你画我猜”中击败你”

地址:http://www.ok-sl.com/ozdt/9400.html