什么是法学硕士?大型语言模型及其工作原理指南

Telemarketing List offers accurate and up-to-date contact databases for successful sales campaigns.
Post Reply
mostakimvip06
Posts: 347
Joined: Mon Dec 23, 2024 5:02 am

什么是法学硕士?大型语言模型及其工作原理指南

Post by mostakimvip06 »

如果你正在阅读这篇文章,那么你可能已经听说过大型语言模型 (LLM)。谁没有听说过呢?归根结底,LLM 是推动正在进行的生成式 AI 革命的超级流行工具的幕后推手,包括ChatGPT、Google Bard和DALL-E。

为了发挥其魔力,这些工具依靠强大的技术,使其能够处理数据并生成准确的内容以响应用户提出的问题。这就是 LLM 发挥作用的地方。

本文旨在向您介绍 LLM。阅读完以下部分后,我们将了解 LLM 是什么、其工作原理、不同类型的 LLM 及其示例,以及它们的优点和局限性。

对于该主题的新手,我们的大型语言模型 (LLM) 概念课程是深入了解 LLM 的理想选择。但是,如果您已经熟悉 LLM,并希望更进一步学习如何构建 LLM 强大的应用程序,请查看我们的文章如何使用 LangC 香港赌博数据 hain 构建 LLM 应用程序。

让我们开始吧!

什么是大型语言模型?
LLM 是用于建模和处理人类语言的 AI 系统。它们之所以被称为“大型”,是因为这类模型通常由数亿甚至数十亿个定义模型行为的参数组成,这些参数是使用大量文本数据进行预训练的。

LLM 的底层技术称为 Transformer 神经网络,简称为Transformer。我们将在下一节中更详细地解释,Transformer 是深度学习领域的一种创新神经架构。

2017 年,谷歌研究人员在著名论文《Attention is All You Need》中提出了transformers,它能够以前所未有的准确度和速度执行自然语言 (NLP) 任务。凭借其独特的功能,transformers 为 LLM 的能力带来了重大飞跃。可以说,没有 transformers,当前的生成式 AI 革命就不可能实现。

来源:信息是美丽的

来源:信息是美丽的

上图展示了这一演变过程。我们可以看到,第一批现代 LLM 是在 transformer 开发之后立即创建的,其中最显著的例子是BERT(谷歌为测试 transformer 的功能而开发的第一个 LLM),以及 GPT-1 和 GPT-2,这是 OpenAI 创建的 GPT 系列中的前两个模型。但直到 2020 年代,LLM 才成为主流,越来越大(就参数而言),因此也更加强大,有 GPT -4和LLaMa等著名例子。

法学硕士 (LLM) 如何运作?
现代 LLM 成功的关键在于 transformer 架构。在 Google 研究人员开发出 transformer 之前,对自然语言进行建模是一项非常具有挑战性的任务。尽管出现了复杂的神经网络(即循环神经网络或卷积神经网络),但结果只是部分成功。

主要挑战在于这些神经网络用于预测句子中缺失单词的策略。在 Transformer 出现之前,最先进的神经网络依赖于编码器-解码器架构,这是一种功能强大但耗时耗资源的机制,不适合并行计算,因此限制了可扩展性的可能性。

Transformer 为传统神经网络提供了一种处理序列数据(即文本)的替代方案(尽管 Transformer 也已用于其他数据类型,如图像和音频,并取得同样成功的结果)。

法学硕士课程组成部分
Transformer 基于与循环神经网络和卷积神经网络相同的编码器-解码器架构。这种神经架构旨在发现文本标记之间的统计关系。

这是通过嵌入技术的组合来实现的。嵌入是高维向量空间中标记(例如句子、段落或文档)的表示,其中每个维度对应于语言的学习特征或属性。

嵌入过程发生在编码器中。由于 LLM 的规模巨大,创建嵌入需要大量训练和大量资源。然而,与之前的神经网络相比,Transformer 的不同之处在于嵌入过程高度可并行,从而实现更高效的处理。这要归功于注意力机制。

循环神经网络和卷积神经网络完全基于前面的单词进行单词预测。从这个意义上讲,它们可以被认为是单向的。相比之下,注意力机制允许 Transformer 双向预测单词,即基于前面和后面的单词。注意力层的目标是捕捉输入句子中不同单词之间存在的上下文关系,它包含在编码器和解码器中。

要详细了解编码器-解码器架构在 transformer 中的工作原理,我们强烈建议您阅读我们的《Transformers 使用简介》和《Hugging Face》。

Transformer 架构的解释

Transformer 架构的解释
Post Reply