大型语言模型入门教程之第 1 部分：BERT 了解 BERT 如何构建最先进的嵌入（教程含源码）

企业开发 2023-09-05 17:24:45 阅读次数: 0

介绍

2017年当Transformer模型首次亮相时，是机器学习历史性的一年。它在许多基准测试中表现出色，并且适合解决数据科学中的许多问题。由于其高效的架构，后来开发了许多其他基于 Transformer 的模型，这些模型更专注于特定任务。

BERT 就是此类模型之一。它主要以能够构建可以非常准确地表示文本信息并存储长文本序列的语义的嵌入而闻名。结果，BERT 嵌入在机器学习中得到了广泛的应用。了解 BERT 如何构建文本表示至关重要，因为它为处理 NLP 中的大量任务打开了大门。

在本文中，我们将参考原始 BERT 论文，了解 BERT 架构并了解其背后的核心机制。在第一部分中，我们将对 BERT 进行高级概述。之后，我们将逐步深入了解其内部工作流程以及信息如何在整个模型中传递。最后，我们将了解如何微调 BERT 以解决 NLP 中的特定问题。

高级概述

Transformer的架构由两个主要部分组成：编码器和解码器。堆叠编码器的目标是为输入构建有意义的嵌入，以保留其主要上下文。最后一个编码器的输出被传递到所有尝试生成新信息的解码器的输入。

BERT是 Transformer 的继承者，继承了其堆叠式双向编码器。BERT 中的大部分架构原理与原始 Transformer 中的相同。

在这里插入图片描述

BERT 版本

BERT 存在两个主要版本：Base 和 Large。除了使用不同数量的参数之外，它们的架构完全相同。总体而言，与 BERT Base 相比，BERT Large 需要调整的

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132620063

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)