- AIGC智能营销:4A模型驱动的AI营销方法与实践
- 栗建
- 5376字
- 2025-03-13 17:59:33
1.1.4 生成式人工智能与AIGC 2.0
进入2023年,我们迎来了生成式人工智能技术的爆发。
生成式人工智能,英文名称为Generative AI,所以又被称为GenAI。它是指使用机器学习技术,尤其是深度学习模型,来生成新的数据或内容的一类人工智能系统。这类AI不仅能理解和分析数据,还能创造出全新的输出,这些输出可以是文本、图像、音乐、视频等多种形式。生成式人工智能的关键特点在于其创造能力,即不仅仅复制现有数据,而是基于学习到的数据模式和结构生成新的、独特的内容。
在这一年,基于Transformer的ChatGPT横空出世,引领了大语言模型的“百模大战”。同时扩散模型也引来引爆点,让Stable Diffusion和Midjourney取得突破性进展。
1.Transformer架构和大语言模型
2017年,谷歌研究团队的阿西什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔马(Niki Parmar)等人发表了论文“Attention is All You Need”,并提出了Transformer架构。
这种架构是针对传统的RNN模型在处理长序列数据时遇到的问题而设计的。为了解决这些问题,谷歌的研究者们着眼于设计一个既能捕捉长距离依赖又能高效并行处理的新模型。他们提出了基于注意力机制的架构,即Transformer。
自注意力(Self-Attention)机制是其中的核心,它通过计算序列中各元素之间的关系,使模型能够直接学习到任何两个位置之间的依赖关系,无论它们在序列中的距离有多远。
当我们与他人交流时,我们的大脑自然而然地捕捉到关键词来更好地理解对方的意思。自注意力机制在计算机处理语言时就是在模仿这一人脑的功能。例如,当计算机处理句子“猫坐在垫子上”时,为了深入理解“坐”这个词,自注意力机制会识别出“猫”和“垫子”与“坐”有紧密的联系。接着,它通过增强“猫”和“垫子”的信息(比如它们是什么以及它们的位置),来构建对“坐”这个词更全面的理解。这个过程使计算机在处理语言时能够像人类一样考虑上下文中的重要元素。
此外,Transformer放弃了传统的递归方式,采用了完全的前馈网络。前馈网络就像一个只能向前走的机器人,它从一端接收信息并一步步处理信息,在另一端告诉我们结果。这样做的好处是可以实现同时处理多个任务,解决了长距离依赖问题,也使得模型训练的并行化成为可能,极大地加速了模型的训练过程。
Transformer架构自被提出后,迅速成为自然语言处理乃至其他领域的重要基石,催生了BERT、GPT、Claude、千问、智谱等大型预训练语言模型(Large Pre-trained Language Model)。大型预训练语言模型也被称为大型语言模型或者大语言模型(Large Language Model,LLM)。
这些大语言模型通过在数据集上进行预训练,能够生成连贯、高质量的文本,极大地推动文本生成领域的进步,让计算机可以像人类一样对话。
让我们通过一个例子来了解Transformer的内容生成原理。我们在ChatGPT的对话框中输入“葫芦娃大战钢铁侠”,得到了下面的输出:
在遥远的东方,七色山谷中,葫芦娃七兄弟肩负着守护家园的使命。他们各自拥有不同的力量,从力大无穷到善于水战,从隐身到喷火,无所不能。
一天,天空中出现了一道奇异的光芒,随之而来的是身披一身赤红战甲的钢铁侠。他从遥远的西方世界飞来,寻找一种稀有的能量源,以阻止即将到来的宇宙威胁。
钢铁侠的到来引起了葫芦娃的注意,他们误以为这位钢甲勇士是前来侵犯的敌人。大娃挺身而出,用他强大的双臂封锁了钢铁侠的去路,而钢铁侠则展开了战甲的推进器,准备应战。
紧接着,四娃和五娃迅速加入战团,一道道烈焰和水箭交织在空中,与钢铁侠的脉冲射线相争辉。天空变得犹如白昼,四周的花草树木也在这异彩纷呈的能量波中摇摆。
而三娃、六娃和二娃也不甘示弱,他们分别以坚不可摧的金刚身、神出鬼没的隐身术和千里眼/顺风耳加入战斗,意图团结力量,一举制胜。钢铁侠面对这突如其来的挑战,调动了战甲的全部功能,从激光刀到能量盾,全力以赴。
钢铁侠意识到这些兄弟并非恶意,他们只是在保护自己的家园。
在误会解开后,葫芦娃和钢铁侠决定联手,他们将面对的是一场更大的战斗:用他们的勇气和力量共同守护宇宙的和平。
那么ChatGPT是怎么利用Transformer来写这个故事的?简单来说,分为下面几步:
1)命令输入。我们提供一条指令“葫芦娃大战钢铁侠”作为输入。这条指令将指引模型产生相关的输出。
2)输入编码。Transformer模型首先将输入文本转换为内部的向量表示。向量是一种数学表达形式,可以帮助模型理解和处理文本数据。
3)自注意力机制。自注意力机制允许模型在生成文本时考虑输入中所有单词之间的相互关系。这有助于模型理解上下文和主题。在这个例子中,模型将识别出故事可能涉及战斗、英雄以及动作场面。
4)内容生成。模型的解码器通过自注意力机制预测下一个最可能的词。例如,它可能选择“在”作为句子的开头,因为“在”是汉语中的常用介词,适用于引出地点、时间等背景信息。
5)连续生成。模型将持续这一过程,逐字生成文本,直到完成整个故事或达到设定的终止条件。例如,一旦选择了“在”,模型将预测下一个词。因为“在”后常跟地点,模型可能根据训练中学到的模式选择一个与“遥远”“神秘”相匹配的词语。然后,模型可能添加形容词“遥远的”,以增加描述性和构建故事的期待感。接着可能选择“东方”作为地点,因为“东方”常与传奇故事和神秘场景联系,并与“葫芦娃”的中国文化背景相符。
6)迭代改进。在实际应用中,生成的文本可能会经过多次迭代和编辑,以提升其连贯性、创意和整体质量。这个过程可以是自动进行的,也可以通过人工进行调整和优化。
你可能会好奇为什么GPT知道葫芦娃有七兄弟,并且熟悉他们各自的法术和法宝。这是因为,GPT以及其他类似的大语言模型通过学习大量的文本数据来获取这些信息。这些模型在训练阶段已经处理了海量的信息(语库),覆盖了广泛的知识领域,包括葫芦娃的兄弟数量、钢铁侠的装备以及他们的战斗特点等。
然而,我们需要注意的是,这些大语言模型并不真正“知道”或理解这些信息。它们无法像人类一样具有真实的理解或意识。当输入一个提示时,它们通过分析学习到的语言模式和上下文,推断出最有可能的回答。这种方法依赖于算法对大量文本数据的分析和模式识别,而非真实的知识理解。
2.变分自编码器、扩散模型与图像和视频生成
变分自编码器(Variational AutoEncoder,VAE)是深度学习领域中的一种生成模型。它主要用于学习输入数据的潜在表示,并基于这些表示生成新的、与训练数据相似的数据点。
VAE结合了深度学习技术和贝叶斯推断方法,在统计生成模型的框架内引入了深度神经网络。它的应用非常广泛,包括生成新的图像(如人脸、风景等)、推荐系统(通过学习用户及其潜在特征来进行推荐),以及文本生成(用于自然语言处理的特定任务,例如生成创意文本)。
为了形象地理解VAE的工作原理,可以想象有一个“魔法机器”,其任务是学习如何绘制各种小狗的图像。
这个机器由两部分组成:一部分是“魔法摄像机”,另一部分是“魔法画笔”。首先,“魔法摄像机”接收并分析各种小狗的图片。在这个过程中,它不仅学习了小狗的外观,更重要的是,通过变分推断和深度学习,它理解了小狗的“本质”。这种理解体现在它试图找到一种简洁的方式来描述所有小狗,这就是所谓的“潜在表示”,相当于一种描述小狗的“秘密代码”。这个“秘密代码”并不直接存储图片的像素,而存储决定小狗外观的各种因素,比如大小、形状和颜色。
当需要绘制一只小狗时,“魔法画笔”便会使用“魔法摄像机”生成的潜在表示。利用这些代码,它可以不仅复现已知的小狗图像,还能创造出全新的、从未见过的小狗样式。
通过这种方式,VAE能够帮助我们生成全新的图像、音乐或任何其他内容,只要我们有足够的数据来训练模型。例如,在使用Stable Diffusion这类工具时,选择合适的VAE是至关重要的,因为它直接影响到生成图像的色彩和细节质量。
3.扩散模型
扩散模型是一种生成模型,用于生成高质量的复杂数据,如图像和音频。不同于其他生成模型(如VAE和GAN),扩散模型是一种先进的生成模型,用于生成高质量的复杂数据,如图像和音频。
与VAE和GAN等生成模型不同,扩散模型通过模拟数据的退化过程然后逆转这一过程来生成数据。这种方法最初由雅沙·索尔-迪克斯坦(Jascha Sohl-Dickstein)及其团队在2015年左右提出。虽然在初期扩散模型因性能未能超越当时的主流模型而未受到广泛关注,但随着对其理论和方法的深入研究以及深度学习技术的发展,扩散模型近年来已显现出显著的进步。
为了形象地理解扩散模型的工作原理,可以将其比喻为一种“时间机器”。想象一下,有一张完美的图像,这张图像随着时间的推移逐渐失真,直到变成几乎无法辨识的噪声。扩散模型首先模拟这一退化过程,即如何从清晰的图像逐步过渡到噪声。然后,这个模型的魔力在于,它能够将时间倒流,从噪声状态恢复到原始的、清晰的图像。这个逆过程涉及一系列复杂的学习和调整,使模型不仅能够重建训练数据中的图像,还能创造出全新的、从未见过的图像。
扩散模型已成为生成式建模的前沿技术,广泛应用于多个领域。在图像生成领域,它能创造出逼真的人像、风景画等;在数据增强领域,它帮助提升模型的鲁棒性和性能;在分子设计领域,它能预测和设计新的化合物结构;甚至在天气预测等复杂的系统模拟中,它也显示出其潜力。扩散模型的这些应用实例以及我们熟知的AIGC工具,如DALL·E 2、Stable Diffusion和Leonardo.ai等,已经在艺术创作和其他领域产生了深远的影响。
为了更好地了解VAE和扩散模型的工作原理,我们使用Stable Diffusion来生成一张怀抱小猫的少女照片,生成的图像如图1-2所示。

图1-2 Stable Diffusion生成的怀抱小猫的少女
这张逼真图的生成涉及一系列复杂的过程,包括文本到图像的转换、扩散模型的逆向过程以及最后的图片生成。以下是对这些过程的详细介绍。
步骤1:用户输入
我们选择Copax TimeLessXL模型,并在变分自编码器选项中选择sdxlVAE模型。输入包含“小猫”“少女”关键词的指令。
步骤2:文本编码
Stable Diffusion将使用一个文本编码器来解析并编码输入的指令。这一步把文本转换成一个理解模型可以处理的数值形式,通常是一个高维的特征向量。
步骤3:初始化和扩散过程
1)初始化:模型通常从一张随机噪声图像开始。这是生成过程的起点,相当于一个空白画布。
2)扩散过程:在传统的扩散模型中,这一步是先将清晰的图像逐渐加入噪声,直到完全变为噪声。但在实际应用中,这一步通常是预先设定的,并不需要显式执行。
步骤4:逆向扩散过程
1)条件化逆向过程:这是Stable Diffusion的核心,模型根据文本描述的条件,从随机噪声中逐步重构图像。在每一步中,模型都会尝试预测并去除噪声的一部分,逐渐揭露出与文本描述相匹配的图像内容。这个过程通常包含多个迭代步骤,每一步都逐渐减少噪声并增加图像细节。
2)迭代细化:通过多次迭代,图像逐渐从抽象噪声转变为具体图像。每一步都基于前一步的输出,并继续改进图像质量和细节。
步骤5:图像生成
最终,在逆向过程完成后,生成的图像将显示在用户界面上。这张图像应该体现出输入文本的所有元素,如小猫、少女以及任何其他指定的环境细节。
4.AIGC 2.0
随着技术的持续发展,AIGC技术在生成结果的质量、多样性和智能化方面取得显著进步,使得生成内容更加符合人类的期待和需求。截至2024年2月,ChatGPT的第四代、Midjourney的第六代版本和Stable Diffusion的XL 1.5版本,都极大地提升了文字、图像、音频等内容的逼真度。此外,随着ChatGPT的个性化定制服务GPTs和Stable Diffusion的个性化模型训练的发展,内容生成的个性化(符合个人品位,适应行业知识)和可控性(如长度、风格等细节控制)成为可能。
进入AIGC 2.0时代,这项技术已接近人类的创造力和智能水平,展示出更广泛的应用前景。AIGC 2.0特别强调创造性、跨模态生成和智能交互。例如,新一代的AIGC系统能够通过与用户的动态互动自动调整内容生成策略,以更贴近用户的具体需求和情境。这包括基于用户的反馈进行迭代以提升内容的质量,或根据不同的应用场景调整生成内容的风格和格式。
为了加深理解,下面将详尽对比AIGC 1.0与AIGC 2.0在技术架构、数据依赖、应用场景等方面的演进,如表1-1所示。
表1-1 AIGC 1.0与AIGC 2.0的对比

AIGC 1.0依托于深度学习的基础技术,主要包括深度卷积神经网络、GAN和RNN。这一代技术在数据分析、模式识别、内容初步生成及增强/虚拟现实体验等方面展现出了潜力。AIGC 1.0的应用倾向于聚焦单一领域或内容形式,如文本生成、图像合成等,其产出虽具创新性,但内容质量与连贯性有时参差不齐,且功能较为定向,未全面覆盖用户的多样化需求。
相比之下,AIGC 2.0源自生成式人工智能,核心技术框架转向了Trans-former架构、大语言模型以及先进的扩散模型,这些模型在海量数据集上进行了深度训练。AIGC 2.0的核心优势在于其对个性化体验的强化、智能交互的提升及前所未有的创造性表达,这些进步使人工智能生成的内容更加贴近人类创作水平,应用领域也显著拓宽,涵盖了艺术创作、复杂文本理解与生成、多模态内容融合等多个维度。
5.AIGC技术的未来展望
展望未来,AIGC技术的边界将不断拓展。在通用人工智能的曙光到来之前,AIGC技术可能在以下领域获得新的突破。
● 情感智能:系统将能更好地理解和生成表达复杂情感的内容。Emotient和Affectiva等公司已经开发了面部识别软件,来分析用户的表情并识别情绪,这些技术未来可以整合到AIGC系统中,使其能够生成可以表达情感的内容。
● 自适应学习:AIGC系统将通过持续学习用户行为和偏好,无须显式编程即可自动优化其生成策略。
● 增强现实(AR)与虚拟现实(VR):在AR/VR环境中,AIGC技术将用于实时创建沉浸式交互体验和动态内容生成,提供更加丰富和个性化的用户体验。在虚拟现实游戏和元宇宙平台,如VRChat、Roblox和Decentraland,AIGC技术可以用来实时生成和调整虚拟世界中的环境和角色,提供更丰富的用户交互体验。
● 多模态生成:跨模态能力将进一步增强,例如从文本生成视频等,这将打开新的创意和商业应用的大门。OpenAI的Sora已经将视频生成的长度延长到了1分钟。