图片来源:作者
在过去几年,尤其是自 ChatGPT 出现以来,生成式 AI 模型用于创建逼真的合成文本、图像、视频和音频不断涌现,并迅速发展。最初仅是微不足道的研究,但很快发展成能够在上述各种媒介中生成高质量、类人输出的系统。特别是在神经网络的关键创新和计算能力的大幅提升的推动下,越来越多的公司现在提供这些模型的免费和/或付费访问,这些模型的能力以惊人的速度增长。
然而,生成式 AI 并非全是美好愿景。尽管它在多种应用中极具潜力,能够增强人类创造力,但如何恰当地评估、测试和负责任地部署这些生成系统仍然存在诸多担忧。尤其是对虚假信息传播的担忧,以及由这项技术带来的偏见、真实性和社会影响的忧虑。
然而,处理任何新技术的首要任务是尝试理解它,然后再决定是利用还是批评它。我们计划在本文中着手进行这一工作。我们打算列出一些关键的生成式 AI 术语,并尽力以直观的方式使初学者能够理解,从而提供一个基础框架,为进一步深入学习铺平道路。为此,在下文中的每个关键术语下,你将找到相关材料的链接,便于根据需要进一步调查。
现在让我们开始吧。
自然语言处理(NLP)是一个专注于使机器理解、解释和生成自然语言的 AI 子领域,通过编程为这些机器提供所需的工具。NLP 构建了人类沟通与计算机理解之间的桥梁。NLP 首先使用基于规则的方法,其后采用了“传统”的机器学习方法,而如今最前沿的 NLP 则依赖于各种神经网络技术。
神经网络是受(而非复制自)人脑启发的机器学习计算模型,用于从数据中学习。神经网络由层(许多层=深度学习)人工神经元组成,处理和传输小的个体数据,将这些数据适配到函数中,并重复更新与处理神经元相关的权重,以“更好地适配”数据到函数中。神经网络对于现代人工智能的学习和决策能力至关重要。没有十多年前开始的深度学习革命,我们所称之为人工智能的许多东西将不可能存在。
生成式人工智能是一类由神经网络驱动的人工智能,专注于创造新的内容。这些内容可以以多种形式出现,从文本到图像,再到音频等。这不同于专注于分类或分析现有数据的“传统”人工智能类型,它体现了“想象”并基于训练数据生成新内容的能力。
内容生成是经过训练的生成模型实际生成合成文本、图像、视频和音频的过程,这些生成是基于从训练数据中学到的模式,对用户输入或提示进行上下文相关的输出。这些提示也可以是上述提到的任何形式。例如,文本可以作为提示生成更多的文本,或根据文本描述生成图像,或生成音频或视频。类似地,图像可以作为提示生成另一张图像、文本或视频等。多模态提示也是可能的,例如,可以使用文本和图像生成音频。
大型语言模型(LLMs)是专门处理和“理解”人类语言的机器学习模型。LLMs 通过大量的文本数据进行训练,使其能够分析和复制复杂的语言结构、细微差别和语境。不论使用的具体 LLM 模型和技术是什么,这些模型的核心本质都是学习并预测当前词汇或标记(字母组合)之后的下一个词汇。LLMs 本质上是非常复杂的“下一个词汇猜测器”,而提升下一个词汇的猜测能力是目前一个非常热门的研究话题。
基础模型是被设计为具有广泛能力的 AI 系统,这些能力可以适应多种特定任务。基础模型提供了构建更专业化应用的基础,例如将通用语言模型调整为特定的聊天机器人、助手或其他生成性功能。基础模型不仅限于语言模型,还存在于生成图像和视频等任务中。知名且被广泛依赖的基础模型包括 GPT、BERT 和稳定扩散。
在这个背景下,参数是定义模型结构、操作行为和学习与预测能力的数值。例如,OpenAI 的 GPT-4 中的数十亿个参数影响其单词预测和对话生成能力。更技术性地说,神经网络中每个神经元之间的连接承载权重(如上所述),每个权重都是一个单一的模型参数。神经元越多 → 权重越多 → 参数越多 → 网络的学习和预测能力越强。
词嵌入是一种技术,通过将单词或短语转换为预定维度数量的数值向量,试图在远小于对词汇表中的每个单词(或短语)进行独热编码所需的空间中捕捉其含义和上下文关系。如果你创建一个 500,000 个单词的矩阵,其中每一行代表一个单词,每一行中的每一列都设置为“0”,除了一个表示该单词的列,这个矩阵将是 500,000 x 500,000 行 x 列,并且非常稀疏。这将是存储和性能上的灾难。通过将列设置为 0 到 1 之间的各种分数值,并将列数减少到例如 300(维度),我们获得了一个更为集中存储的结构,并本质上提高了操作性能。作为副作用,通过让神经网络学习这些维度嵌入值,相似的术语在维度值上会“更接近”,从而为我们提供关于相对单词含义的见解。
变换器模型是同时处理整句话的 AI 架构,这对于掌握语言上下文和长期关联至关重要。它们在检测单词和短语之间的关系方面表现优异,即使它们在句子中相隔很远。例如,当“她”在一段文本中早期被确立为指代特定个体的名词和/或代词时,变换器能够“记住”这种关系。
位置编码是指变换器模型中的一种方法,帮助保持词汇的顺序。这是理解句子及句子之间上下文的关键组件。
从人类反馈中学习的强化学习(RLHF)指的是一种训练大型语言模型(LLMs)的方法。与传统的强化学习(RL)类似,RLHF 训练并使用一个奖励模型,不过这个奖励模型直接来源于人类反馈。然后,该奖励模型作为奖励函数用于 LLM 的训练,借助优化算法。这个模型明确地将人类纳入模型训练的过程中,期望人类反馈能提供必要的、可能否则无法获得的反馈,以优化 LLM。
突现行为指的是大型和复杂语言模型展示出的意外技能,这些技能在较简单的模型中并不存在。这些意外的技能可能包括编程、音乐创作和小说写作等能力。这些技能并没有被明确地编程到模型中,而是从其复杂的架构中自然出现的。然而,突现能力的问题可能超越这些更常见的技能;例如,心智理论是否是一种突现行为?
幻觉是指大型语言模型由于数据和架构的限制而产生事实错误或不合逻辑的响应。尽管模型可能具备先进的能力,但这些错误仍然可能发生,无论是当遇到与模型训练数据无关的查询,还是当模型的训练数据包含错误或虚假的信息时。
拟人化是指将类人特质归于人工智能系统的倾向。需要注意的是,尽管人工智能系统能够模仿人类情感或语言,以及我们本能地将模型视为“他”或“她”(或其他代词)而非“它”,人工智能系统并不具备情感或意识。
偏见在人工智能研究中是一个含义丰富的术语,可以指代多种不同的事物。在我们的上下文中,偏见指的是由于训练数据偏斜而导致的人工智能输出错误,进而导致不准确、冒犯或误导的预测。偏见的出现是因为算法将无关数据特征置于有意义的模式之上,或完全缺乏有意义的模式。
Matthew Mayo (@mattmayo13) 拥有计算机科学硕士学位和数据挖掘研究生文凭。作为KDnuggets和Statology的总编辑,以及Machine Learning Mastery的特约编辑,Matthew 致力于使复杂的数据科学概念变得易于理解。他的专业兴趣包括自然语言处理、语言模型、机器学习算法以及探索新兴的人工智能。他的终极目标是将数据科学领域的知识普及化。Matthew 从 6 岁开始编程。