bert源码详解 - 代码天地

bert源码详解

其他 2021-03-25 17:40:00 阅读次数: 0

1、bert结构

preview

2、句子token

原始输入my dog is cute;

bert的token方式有3种，basicToken, peiceToken,FullToken

3、embedding

preview

[CLS]: 代表的是分类任务的特殊token，它的输出就是模型的pooler output
[SEP]：分隔符
其他：句子A以及句子B是模型的输入文本，其中句子B可以为空，则输入变为[CLS]+句子A

tokens.append("[CLS]")
segment_ids.append(0)
for token in tokens_a:
  tokens.append(token)
  segment_ids.append(0)

tokens.append("[SEP]")
segment_ids.append(0)

for token in tokens_b:
  tokens.append(token)
  segment_ids.append(1)
tokens.append("[SEP]")
segment_ids.append(1)

（在这篇博客中，作者进行了论述https://zhuanlan.zhihu.com/p/103226488）

4、output

5、任务(MLM nsp)

MLM任务中被选15%的

for index in cand_indexes:
  if len(masked_lms) >= num_to_predict: # 15% of total tokens
    break
  ...
  masked_token = None
  # 80% of the time, replace with [MASK]
  if rng.random() < 0.8:
    masked_token = "[MASK]"
  else:
    # 10% of the time, keep original
    if rng.random() < 0.5:
      masked_token = tokens[index]
    # 10% of the time, replace with random word
    else:
      masked_token = vocab_words[rng.randint(0, len(vocab_words) - 1)]

  output_tokens[index] = masked_token

参考博客

https://zhuanlan.zhihu.com/p/103226488 （80% 10% 10%mask策略的具体计算逻辑；这是我影响比较深的一段代码逻辑）

https://zhuanlan.zhihu.com/p/156113715 (预训练模型加载和参数映射详解；这是我影响比较深的一段代码逻辑 )

猜你喜欢

转载自blog.csdn.net/u013069552/article/details/109991086

bert源码详解

Bert详解

BERT详解(3)---源码解读[预训练模型]

BERT详解(2)---源码讲解[生成预训练数据]

NLP预训练模型2 -- BERT详解和源码分析

TensorFlow版BERT源码详解之self-attention

Bert源码阅读

BERT源码分析

Bert源码解读

【NLP】Google BERT详解

BERT原理详解

K-BERT详解

Transformer与BERT详解

BERT（一）—— BERT transformer attention 详解

广告行业中那些趣事系列8：详解BERT中分类器源码

BERT模型源码解析 -- 转载

BERT源码分析（三）---微调

浅谈BERT预训练源码

BERT源码实现与解读(Pytorch)

BERT详解：概念、原理与应用

大模型时代的BERT 详解

Bert详解(1)---从WE、ELMO、GPT到BERT

BERT

Bert系列源码解读四篇章

BERT源码分析（二）---工具类

听说你还没读过 Bert 源码？

Bert模型解读（transformer库源码解读）

新手必看的Bert源码解读

Bert Pytorch 源码分析：三、Transformer块

Bert PyTorch 源码分析：一、嵌入层

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)