1.1.3 深度学习的突破和AIGC 1.0

进入2010年,深度学习取得了突破。

深度学习是机器学习的一个分支,特别侧重于利用多层神经网络进行特征学习和模型训练。与传统机器学习相比,深度学习的主要区别在于特征提取(从数据中识别关键信息的过程)和表示学习(自动确定描述数据的最佳方式)的实现方法。

在传统机器学习中,特征通常需要人工设计以描述数据,而深度学习则通过多层次的神经网络自动学习数据中的高级特征表示。比如,在传统机器学习中,为了识别澳大利亚特有的动物袋熊,我们首先需要定义一系列具体的特征,例如袋熊的体型、毛色、育儿袋的朝向以及粪便的形状等。这些特征随后需要人工标注并输入模型中,使模型能够依据这些预先设定的特征进行袋熊的识别。

而在深度学习中,你只需向模型提供大量的袋熊图片,模型便能自动学习并提取出区分袋熊的关键特征。

这种技术的发展催生了AIGC的第一次普及和应用浪潮,我们可以将这一时期称为AIGC 1.0。在AIGC 1.0时代,人工智能不仅能够理解和处理信息,而且开始能够创造、编辑和生成新的内容,这些应用主要依赖于深度学习框架和算法。AIGC被主要应用于生成体育赛事和财经报道,并被应用于Apple的Siri和Google Assistant等智能助手,提供天气预报、设置提醒等服务。

深度学习,特别是卷积神经网络(CNN)、生成对抗网络(GAN)、循环神经网络(RNN)的发展,带来了在图像、音频、文本和视频内容生成领域的重大突破。这些技术的进步极大地推动了自动化和智能化应用的发展,改变了我们处理和生成各种媒体内容的方式。

1.深度卷积神经网络

深度卷积神经网络(Deep Convolutional Neural Network,DCNN),它是用来帮助计算机识别和理解图像的工具。它的工作方式就像人类使用眼睛和大脑来处理看到的图片。

2012年,来自多伦多大学的三位研究者——亚历克谢·克里日维斯基、伊利亚·苏茨克沃(Ilya Sutskever)和他们的导师杰弗里·辛顿——开发了一种名为AlexNet的深度卷积神经网络。这个网络由8层组成,包括5层专门用于“观察”和处理图像细节的卷积层。在处理图像数据时,AlexNet会先通过这些卷积层来识别图像中的基本图形和纹理,然后用一种称为ReLU的特殊函数帮助网络更好地学习和做出判断,最后通过几层密集连接的网络层来做出最终的分类决策。

如果你是一个直播电商的选品负责人,你使用AlexNet的原理为直播间选品的过程可能是这样的:

1)收集信息:收集各种类别的商品信息,这就像AlexNet搜集和处理图像数据集。

2)初筛特征:根据商品的基本属性(如产地、包装、品牌)进行初步筛选,这个过程类似于AlexNet利用初级卷积层来识别图像的基本特征。

3)深入分析:更详细地分析商品的用户人群、定价等复杂属性,这类似于AlexNet利用更深层次的卷积层来识别图像的复杂特征。

4)做出决策:综合以上信息决定哪些产品是爆款,哪些是流量款和利润款,这类似AlexNet的全连接层综合前面所有层的信息做出分类决策。

5)执行营销策略:产品上架和推广,这类似于最后AlexNet将图像分类结果应用到实际操作中。

通过这种方式,你不仅能有效地选择合适的商品进行推广,还能确保整个选品过程具有数据驱动和策略性,最大化直播电商的效益。

在AIGC 1.0时代,深度卷积神经网络成为推动创新和突破的关键技术之一。这些网络通过模拟人类视觉系统的处理机制,极大地增强了机器对图像、音频和视频的理解与创造能力。

一个典型的应用是DeepArt.io,这个平台使用深度卷积神经网络将用户上传的照片转换为具有特定艺术家风格的作品。通过学习和模仿历史上著名画家(如梵高或毕加索)的独特风格,DeepArt.io能够重现这些大师的画风,将现代照片转化为艺术作品。

在音乐领域,AIVA使用深度卷积神经网络等深度学习技术来分析和学习大量的音乐作品,进而创作出新的音乐。

此外,深度卷积神经网络在电子游戏设计中也显示出其强大的能力。它们能够生成复杂的游戏环境和纹理,提供更加细腻和逼真的视觉效果。游戏开发者利用深度卷积神经网络来创建动态和互动的游戏元素,提升玩家的沉浸感和游戏体验。

2.生成对抗网络(GAN)

GAN是由伊恩·古德费洛(Ian Goodfellow)在2014年提出的一种先进的深度学习模型。该模型通过同时训练两个网络——一个生成器(Generator)和一个判别器(Discriminator)——来产生新的、逼真的数据。

所谓的逼真数据,指的是生成器模型创建的输出,这些输出在视觉上或其他感觉上与真实世界的数据几乎无法区分。这些数据并非真实存在,而是通过网络学习真实数据的分布并模仿其特征所生成的。例如,我们可以使用AIGC工具生成人物形象,这些形象虽极其逼真,却在现实世界中不存在。

这个模型与生成式人工智能紧密相关。在GAN框架中,生成器的作用类似于一个创作者,其目标是生成能够欺骗判别器的逼真数据(如图像),它从随机噪声出发,逐步学习如何产生与真实数据类似的结果。而判别器则扮演一个质量监督的角色,负责评估生成器输出的内容是否具有真实性。

通常,GAN采用深度卷积神经网络作为生成器和判别器的核心架构,以支持这种复杂的学习和生成过程。

GAN的主要创新在于其独特的对抗性训练框架。传统的深度学习模型通常通过最小化预测误差来训练,类似于老师根据学生的错误答案进行指导,帮助学生找出并改正错误。与之不同,GAN采用一种全新的、动态的训练方法。这种方法可类比于一种变革教育模式,不再依赖老师的直接教导,而是让学生通过彼此出难题并相互挑战来学习。例如,学生甲尽量出具有迷惑性的难题,而学生乙努力识别并解答这些问题,随后反过来挑战学生甲,通过这种持续的互相挑战,学生们的解题能力得到增强。

在GAN中,生成器和判别器之间的这种竞争促使生成器不断学习如何更精准地模仿真实世界的数据分布,同时判别器也在不断进化,以更有效地识别生成的数据。这种连续的进步和挑战导致生成的图像质量逐步提高。在这一过程中,AI逐渐掌握生成高质量图像所需的复杂特征,如光影、纹理、颜色和形状等。

因此,GAN在艺术创作、风格迁移、虚拟现实等领域的应用中显示出巨大的潜力,成为AIGC技术的核心组成部分。

在AIGC领域,我们熟悉的换脸应用FaceApp正是基于GAN开发的。用户上传自己的照片后,可以实现老化、去皱、性别转换等视觉效果。同样,Instagram和抖音上流行的换脸应用,以及一键变身漫画的效果,都得益于GAN的技术支持。此外,广受欢迎的图片风格生成网站Artbreeder背后的技术也是GAN。这些应用展示了GAN在视觉艺术和娱乐领域的广泛应用和影响力。

3.循环神经网络(RNN)

RNN是一种专门设计用来处理序列数据的神经网络。与传统神经网络不同,RNN能够处理输入数据的时间动态特性。这意味着它通过内部循环连接保持状态,从而能够捕捉序列中先前时间步的信息并利用这些信息。

RNN的核心优势在于能够模拟序列数据点之间的时间关系。例如,在语音识别应用中,一个单词的发音不仅依赖于当前的声音片段,还受到其前后声音片段的影响。通过其循环结构,RNN能够捕捉到这些关系,从而提高对单词和短语的识别精度。

假设我们正在开发一款同声传译软件,这款软件能够捕捉现场声音,并将其转换成一系列可以由人工智能处理的数据点,例如音素。音素是语音的基本单位,在语言学中用于区分不同意义的最小语音单元,是构成音节的基础。例如,汉语词“兔”由一个音节[tu]组成,这个音节可以进一步细分为声母[t]和韵母[u],它包含的两个音素是最细的可区分单元。

这些音素构成的数据序列被输入RNN。RNN通过其循环连接分析和解析语音流中的每个元素。这种循环连接设计赋予了RNN一种“短期记忆”的功能,通过网络的隐藏层状态保持之前输入的信息。这使网络能够利用过去的数据影响当前及未来的分析和判断。这种模型的“记忆”能力允许它利用上下文信息,从而显著提高翻译的准确性。

在同声传译中,处理长期依赖性是一个主要挑战。例如,句子的意义可能依赖于前文的内容,或者中文词汇(如“苹果”“蝴蝶”)的确切含义和适当翻译可能取决于上下文中的其他词汇(如“吃苹果”与“苹果手机”、“蝴蝶酥”与“蝴蝶迷”)。人工智能在处理需要长期上下文才能理解的内容时可能会遇到困难,这可能导致翻译质量下降。

为解决这一问题,长短期记忆(LSTM)网络对RNN的记忆能力进行了显著提升。LSTM网络通过引入门控机制来管理长期依赖性问题,能够维护长期的记忆并避免在处理长序列时梯度消失。这些门控机制包括输入门、遗忘门和输出门,它们帮助网络决定何时更新或忽略输入,何时传递信息,以及何时“遗忘”不再相关的信息。这使LSTM网络能够在必要时保留信息,在不再需要时舍弃信息,从而更有效地学习和产出。

RNN和LSTM网络已成为AIGC发展的关键驱动力。这些技术广泛应用于语音识别服务、在线翻译、语音助手(如Siri)等工具,尤其在自然语言处理领域,极大地推动了聊天机器人和虚拟助手技术的发展。类似RunwayML这样的视频编辑工具也使用RNN来理解和生成视觉内容。

4.AIGC 1.0的营销应用

在大语言模型和Transformer(变换器)架构出现之前,包括深度卷积神经网络、GAN以及RNN在内的深度学习技术带来了丰富的AIGC应用和营销工具,并开始具备数据分析和预测、内容生成、智能客户、虚拟现实等能力。

在数据分析领域,这一时期涌现出了如Brandwatch和Talkwalker等工具,它们利用深度学习技术分析社交媒体上的用户行为及用户生成内容(User Generated Content,UGC),帮助企业更好地了解消费者行为和偏好,并自动生成标签。除了在社交媒体营销上的应用,亚马逊和阿里巴巴已经开始大规模使用深度学习技术进行数据分析,提升推荐系统的准确性。

在内容营销方面,Hootsuite和Buffer等工具已经开始应用深度学习技术分析用户互动,并尝试自动生成社交媒体内容。专门的创意辅助和内容生成工具(如DeepArt.io和RunwayML)开始出现,辅助品牌生成图像和视频。

在自动化营销方面,Mailchimp和SendGrid等工具开始利用深度学习技术来优化内容、管理发送,显著提升自动化营销的效率。

在客户服务和客户关系管理领域,聊天机器人被广泛应用于售前的线索管理和售后的客户关系维护,出现了百度度秘、微软小冰、Drift、Zendesk Chat、Liveperson等聊天机器人工具和平台。然而,这些机器人的自然语言处理能力通常较弱,难以准确理解用户意图并生成相关的回复。

随着元宇宙概念的兴起,深度学习技术也推动了增强现实和虚拟现实的快速发展,例如抖音的AR滤镜。虚拟人物和虚拟主播得到了迅猛发展,出现了如初音未来、AYAYI、柳夜熙等虚拟人,以及新华社新小微、湖南卫视小漾等虚拟新闻主播和主持人。

也是在这一时期,增强现实、虚拟现实和虚拟人技术从最初的新奇玩具转变为有效的营销工具,特别是抖音虚拟主播等应用。

这些AIGC 1.0时期的应用、工具和平台,通常针对特定的内容类型或创作任务设计,如DeepArt.io专注于艺术风格迁移,Canva专注于图形设计,Sprinklr则专注于社交媒体分析和管理。这些工具生成的内容质量波动较大,且很容易被识别为人工智能生成的内容。