Jamshed Khan, Jaideep Misra, Padmanabhan Rajendrakumar

当听到“人工智能”,“机器学习”或“机器人”这两个词时,大多数人倾向于想象一个行走的,说话的机器人机器人,它看起来像科幻电影中的东西,并且在未来很快就会假设一段时间。

对不起人!人工智能已经在我们身边多年了,目前居住在你的智能手机(我们爱你Siri / Google智能助理!),你的汽车的GPS系统,甚至在你读完这篇文章之后想一想它会为你推荐哪篇文章。然而,在过去几年中,没有哪个域比计算机视觉更受其影响。

随着技术的出现,以超高分辨率观看视觉上吸引人的图像变得越来越普遍。人们不再需要使用Photoshop和CorelDRAW等工具来增强和改变他们的图像。 AI已经被用于图像增强和操纵的每个方面,以便产生最佳图像。然而,最新出现的想法实际上是使用AIgenerate图像,综合。

您可能已经看过的几乎所有图像都是拍摄的照片,或者由生气勃勃的人手动创建。可能有数百种手动生成图像的工具,但它们确实需要人才来主持这个过程。但是,想象一下从头开始绘制的计算机程序,无论你告诉它什么。微软的绘图机器人可能是第一个也是唯一一个使这成为可能的技术之一。想象一下在不久的将来,你可以在智能手机上下载应用程序并给它一些指示,例如“我想要一张我站在艾菲尔铁塔旁边的图像”。 “(确保你正确地说出来)。

制作这种合成图像的基础在于生成对抗网络。自从他们在2014年由Ian Goodfellow和他的同伴们发现并推出他们的research paper,GAN仍然是深度学习中最迷人和最广泛使用的方面之一。这项技术的无穷无尽的应用,这是所谓的对抗性训练的核心,不仅包括计算机视觉领域,还包括数据分析,机器人技术和预测建模。

那么关于GAN的重大事项是什么?

生成性对抗网络属于一组生成模型。这意味着他们的工作是在完全自动化的过程中创建或“生成”新数据。

顾名思义,GAN实际上是由两个相互竞争的个体神经网络组成的adversarial方式)。一个神经网络,称为generator,生成由随机噪声创建的新数据实例,而另一个,即discriminator,评估它们的真实性。换句话说,鉴别器决定它所评论的每个数据实例是否属于实际训练数据集。

让我们说你的任务是制作一幅与一位非常着名的艺术家制作的画作相同的画作。不幸的是,你不知道这位艺术家是谁,或者曾经看过他的一幅画。你的任务是伪造一幅画并将其作为原件之一出现在拍卖会上。所以,你决定尝试一下。你需要的只是一些颜料和画布,对吧?然而,拍卖商不希望人们出售一些随机的东西,只想要真正的文章,所以他们已经成功并聘请了一名侦探,首先验证拍卖会上展示的所有物品。幸运的是,侦探有他自己的着名艺术家原画的样本,当你呈现你的随机画时,他立刻就知道这与原作不同。

他拒绝了,你决定再试一次。但是这一次,你有一些有用的提示,当他评估你的画布时,侦探会滑倒,画面应该是什么样子。

现在当你再次尝试运气时,这幅画应该会好一点。但侦探仍然不相信并再次拒绝你。因此,你一次又一次地尝试,每次使用某种形式的反馈来改变绘画,它会变得越来越好。(我们将假设侦探可以随着你无休止地回来。)最后,一千次左右的尝试,你终于能够想出一些接近完美复制品的东西。当侦探看着他的样本画时,他不确定你递给他的是否是其中之一,甚至是与着名艺术家具有相同风格和笔触的其他东西。

将相同的思维过程应用于神经网络的组合,GAN的训练包括以下步骤:

这是PyTorch中实现的基本生成网络。

与所有技术一样,GAN也有自己独特的优点和缺点。让我们总结其中的一些,而不是深入细节。

以下是使用GAN的一些潜在优势

·GAN并不总是需要标记的例子来训练。

·它们比其他生成模型(如信念网)更快地生成样本,因为它们不需要按顺序生成样本中的不同条目。

·它们更容易训练生成模型,这些模型依赖于蒙特卡罗近似到日志分区函数的梯度。因为蒙特卡罗方法在高维空间中不能很好地工作,所以这种生成模型对于像ImageNet训练这样的现实任务来说效果不佳。

·他们没有引入任何确定性偏见。像变分自动编码器这样的某些生成方法会引入确定性偏差,因为它们优化了对数似然的下界,而不是可能性本身。与GAN相比,这似乎导致VAE学习生成模糊样本。

同样,还有以下缺点:

·GAN特别难以训练。这些网络试图优化的功能是一个基本上没有封闭形式的损失函数(不像标准丢失函数,如对数丢失或平方误差)。因此,优化这种损失功能非常困难,并且需要对网络结构和训练协议进行大量的反复试验。

·特别是对于图像生成,没有适当的措施来评估准确性。由于合成图像看起来可以通过计算机本身,因此实际结果是一个非常主观的主题,并且取决于人类观察者。相反,我们有起始分数和Frechet初始距离等功能来衡量他们的表现。

这是有趣的部分。我们可以使用GAN做的所有惊人的东西列表。在其所有潜在用途中,GAN已经在计算机视觉领域中找到了大量应用。

这个概念有几种实现,例如TAC-GAN - 文本条件辅助分类器生成对抗网络。它们用于从文本描述中合成图像。

GAN在风格转移等概念中很受欢迎。观看以下视频:

它包括使用称为CGAN(条件生成对抗网络)的特殊类型的GAN进行图像到图像的转换。绘画和概念设计从未如此简单。然而,虽然GAN可以从它的草图中完成像这个钱包这样简单的绘图,但绘制更复杂的东西,如完美的人脸,目前还不是GAN的强项。事实上,对于某些物体来说,它的结果非常噩梦。

在修复和修复中可以看到生成网络的两个令人兴奋的应用。第一种包括图像内的填充或噪声,这可能被视为图像修复。例如,给定具有孔或间隙的图像,GAN应该能够以“可通过的”方式对其进行校正。另一方面,修复涉及使用网络自己的学习来想象图像在其当前边界之外的外观。

由于生成网络,面部合成是可能的,其涉及以不同角度生成单个面部图像。这就是为什么面部识别不需要数百个脸部样本,但可以使用一个样本。不仅如此,生成人造面孔也变得可能。 NVIDIA最近使用他们的GAN 2.0使用Celeba Hq数据集生成高清分辨率的人造人脸,这是高分辨率合成图像生成的第一个例子。

复杂的小方法也变得可能,例如改变面部运动。 GANimation是一个research effort使用PyTorch将自己定义为“来自单个图像的解剖学感知的面部动画”。

使用GAN使图像更逼真的另一个例子是简单地将(非常好的)绘画变成照片。这是使用称为CycleGAN的特殊类型的GAN完成的,它使用两个发生器和两个鉴别器。我们叫一个发电机G,并让它转换图像X domain to the Y域。另一个发电机被调用F,并转换图像Y to X。每个发生器都有一个相应的鉴别器,它试图将其合成图像与真实图像分开。

机器学习和GAN肯定会在不久的将来对成像和摄影产生巨大影响。目前,该技术能够从文本输入生成简单图像。然而,在可预见的未来,它不仅能够创建高分辨率的精确图像,还能够创建整个视频。想象一下,通过简单地将脚本输入GAN生成整部电影。不仅如此,每个人都可以使用简单的交互式应用程序来创建自己的电影(甚至可以自己主演!)。这项技术会成为真正摄影,指导和表演的终点吗?

令人印象深刻的技术也意味着可能用于恶意目的。完美假图像还需要一种识别和检测它们的方法。需要对这种图像生成进行调节。目前,GAN已经被用于制作虚假视频或“Deepfakes”,这些视频以负面方式使用,例如生成虚假的名人色情视频或让人们在他们不知情的情况下说话。将技术用于合成一般人群可用的音频和视频生成的后果是可怕的。

人工图像生成是一种双刃技术,特别是在人们普遍知道它的时候。生成性对抗网络是一个非常有用和危险的工具。它将重塑技术世界的事实是肯定的,但它将如何这样做,我们只能思考。

AI:摄影的未来?