AI科普贴:生成对抗网络(GANs)为什么这么火?

  • Post author:
  • Post category:IT
  • Post comments:0评论

我相信绝大对数AI领域的关注者,都更在意的是AI何时、何地,以何种方式投入应用。要知道AI已经是一个60年的长寿学科,相比于学理上的进化和实验室中的成就,大家必然更关注AI改变生活,发生经济效用的一面。

根植于这种漫长的期待,一些AI领域内的概念获得了迅速火爆的机会。比如在2016年,一种被称为生成对抗网络(Generative Adversarial Nets)的机器学习模型就快速风靡了整个AI圈,从学术界到资本界,一时间都对这种技术充满了无尽的期待。好像没有哪个AI从业者可以绕开GANs,无论是对他五体投地还是嗤之以鼻。

                                        (GANs从男人、女人、戴眼镜的男人,推导出戴眼镜的女人)

如此火爆的行业大讨论背后,仿佛给外界一个错觉。好像生成对抗网络技术已经十分完善,马上就可以达成AI技术的全面市场化。中外众多创业项目也开始以GANs为噱头。

但剥开GANs有点神秘的外衣之后,这种机器学习技术真的可以带给AI行业“跨进度表”式的革命吗?

什么是GANs?

生成对抗网络(Generative Adversarial Networks,GANs)这个概念,最早是在2014年的时候由蒙特利尔大学的AI学者 Ian Goodfellow提出的。在相关论文中,Ian Goodfellow阐释的算法复杂度和数理创新并不太引人注目,但其创造的算法模型在想法上绝对别具一格,尤其它在应用性上的优势令人心动。

抛开复杂的函数语言,GANs在原理本质上酷似博弈论中的二人零和博弈,即非此即彼的胜负游戏。这场游戏中甲的存在价值就是无休止的挑战、质疑和审判乙,从而迫使乙不断调整方案,尽一切可能逃出甲的刁难。

这个玩法应用在机器学习中会有非常奇妙的化学反应。

GANs对这个原理的实现方式是让两个网络相互竞争。其中一个叫做生成器网络( Generator Network),它不断捕捉训练库中的数据,从而产生新的样本。另一个叫做判别器网络(Discriminator Network),它也根据相关数据,去判别生成器提供的数据到底是不是足够真实。

                                                              (生成对抗网络运作原理)

有个非常生动的比喻来形容GANs,那就是生成器是假币制造者,判别器是警察。警察不断质疑假币上的种种漏洞,这就迫使假币制造者不遗余力地提高造假技术,造出无限接近真实的假币——这也就是GANs的核心目的,从数据中生成全新样本。

这个极具张力的想法,事实上是在理论层面解决了机器学习技术长久以来的问题:如何促使机器学习的训练成果向着人类希望的方向前进。GANs简单粗暴地解决了这个问题,其给业界的震动之大,从它的蹿红速度中就可以得知。2015年GANs技术还名不见经传,2016年就达到了无处不在的火爆程度,甚至被专家称为“机器学习领域20年来最酷的想法”。

当然,这个想法的优势不仅仅是够酷,更重要的是它的应用空间非常巨大。

确实有点心动:GANs的应用场景

简单的生成与判别关系,在大量重复学习运算之后,可能带来的行业想象力十分巨大。其最大的亮点是,其他AI技术还在标榜稳定性、兼容性,以及与多种技术的融合程度,GANs却能直截了当地告诉你我能干什么。在醉心AI创业的世界投创圈里,这无疑是一副上好的瘾物。

那么GANs到底能干什么呢?基本原理上看,它可以通过不断的自我判别来推导出更真实、更符合训练目的的生成样本。这就给图片、视频等领域带来了极大的想象空间。综合来看,GANs至少在以下几个方向上可能提供全新的动力:

一、 图像处理:目前网上流传最广的案例,就是通过GANs来生成全新图像,其在真实度和准确度上甚至超过了人工作业。

                                             (通过GANs为花卉图片上色,拟合优度已经非常可观)

在真实工作场景中,为黑白图像上色、通过低清晰度的图片获得高清版本、复原受损图片都可以运营GANs来解决。当然这仅仅是GANs技术的低配版,目前甚至有实验证明了可以用GANs来把图片变成视频。未来如果这个技术成真,电影拍摄的成本都可以大大降低。

二、声音处理:语音合成一直都是初级AI商业化的核心领域。GANs可以在合成和恢复语音素材中提供重大助力。包括用AI合成语音、从大量杂音中恢复某条声轨,甚至模仿一个人的语速、语气和语言心理,都可以应用GANs。

三、文字生成:同样的道理,GANs在文本生成、写稿机器人等领域也由极大应用空间。AI创作文字,最大的难关在于机器没有思想和感情,无法制造出人类写作的文本张力。而这些流于字里行间的所谓张力,说不定可以通过GANs来解决。

四、信息破译与信息安全:既然GANs的目的是使某物不断趋近真实,那么生产出真实的笔记、密码吸管,甚至生物密码也都是可能的。借助GANs破译个体习惯来解锁信息,以及提前运用相关技术进行信息安全防护,未来都有可能成为大市场。这里插一句,其实每种AI算法的出现都映射着人类信息将会变得“更危险”一点,AI在信息安全上的应用,近乎于是一场与全世界赛跑的拉力赛。

五、生成个性化产物:GANs的学习方式,是根据一系列数据指标来将样本生成为可被接受的信息。那么个性化产物的制造其实也在可应用范畴中,《西部世界》里看起来接近真实人类的机器人,其实也就是按照多种社会因素来进行样本判断与生成。这类应用用GANs也可一战。

六、高精度的样本预测:GANs的更大作用,其实还在于通过模糊数据和少量信息,对某种可能性结果进行样本预测。数据越充分,算法越高超,这样的预测就会越精准。比如去年年底十分引人注目的,用AI来通过人的侧脸判断正脸,就是用GANs技术来完成。

                                              (GANs推测人脸,孰真孰假常人已经难以分辨)

这种预测样本的应用还有很多,而推测未知永远都是人类最愿意付费的领域之一,这带给GANs的商业想象空间当然也十分充足。

说了这么多,给人的感觉好像GANs已经无所不能了。但实事求是的说,理想总是美好的,但什么时候成为现实就不一定了。

问题依旧无数:GANs目前还属于“看起来很美”

目前来看,GANs在业界中引发的疯狂的资本想象,在学界却更多激起的是讨论甚至论战。因为这个简单粗暴的机器学习解决方案看似美好,但在实际应用和反复试验中却总是存在各种问题。即使相对成熟的实验结果,也会留下诸多隐患:

一、需要数据量过大:GANs的推导,完全依赖基于大量样本数据的反复判断。这对于样本数据的数量和覆盖广度都有严苛要求。而且对运算能力的要求也比较高。在相对垂直、小众的应用领域里,GANs还是比较难以施展手脚。

二、理论指导匮乏造成的系列问题:GANs用什么标准判断、以何种理论体系来引发判断,一直以来还都缺乏支撑。准确地说,GANs是一个有充足样本和指导思想之后的解决方案,但目前解决方案有了,前提条件很多还不具备。在缺乏理论有效指导的情况下,GANs很难得出复杂的样本推导结果,而且错误率十分地高。并且进入无监督学习领域也存在着大量门槛。

三、普遍应用度不高:复杂的算法往往也代表着比较强的兼容性,而GANs目前相对简单的算法,带来的问题就是普遍应用度不高。除了在少数几个领域表现突出之外,在更多底层运算领域则后继乏力。当然,目前学界大量研究也在解决这个问题,根植于GANs思想衍生了大量深度学习模型,或许很快补完这个缺憾。

总而言之,GANs虽然很容易让人感受到它的魅力何在,但完整性和深度显然还不足。与国内一些吹捧之间更是有天壤之别。当然了,GANs的火爆也绝不仅仅是种伪风口,真正的价值,在于其可能激发的连锁反应链。

真正的价值来自脑补:GANs可能激发的连锁反应

相比于快速进入商业场景,AI体系内部对GANs的期望可能更多来自于其他方向。比如,GANs作为一个入口或者关键解决方案,影响其他AI关键领域进程的能力。

比如说迁移学习。我们知道,今天的AI的主流机器学习,更多解决的是应用能力学习的问题。但如果具体到了垂直领域,数据和样本的匮乏会导致AI无法工作。但通过GANs的生成与判断机制,可以为迁移学习能力提供一个学习能力推导的输出端。这是AI长期发展的基石。

再比如弱监督学习领域。GANs代表了一种核心想法,即是让算法内部存在超过一个模型,这些模型不再是统一目的的运算体,而是通过不同目的的运算来相互制衡,这也就让算法自我推进成为了可能。目前,基于GANs已经产生了更多多模型学习框架,这是GANs的一大功劳。

还有,在机器理解能力和异介质样本生成上,GANs都有比较突出的帮助。这些价值可能并非体现在GANs现在得出的实验结果或者已经可以提供的价值,而是在整个AI演进体系中打通了一种连锁反应,可以激发研究者和创业者的脑补能力。

简要总结一下,GANs在目前进度条上投入应用并非不可能,但绝对没有众多媒体和商业力量吹捧的那么神奇。这种技术在民间的出位,很大程度来自它的理论容易理解和实验应用能力。

但更深处,那些可能需要挑战一下脑容量的AI逻辑,或许才藏着真正的金矿。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

发表回复