Twitter推荐系统的可信和安全模块解析（Trust and Safety Models）

上一篇博文整体看了Twitter推荐的架构：

Twitter开源时间线推荐架构整理（Twitter‘s Recommendation Algorithm）

本篇文章解析一下可信和安全模块的具体实施细节。

Trust and Safety Models

源码地址：https://github.com/twitter/the-algorithm/tree/138bb519975407d4ea0dc1478d897d451ef05dab/trust_and_safety_models

信任和安全模型（Trust and Safety Models），简称T&S，主要用于检测推特系统中不可信和不安全等违规内容。

在后续架构中的多路召回模块（包括in-network召回路和out-of-network召回路），该T&S特征都能用于过滤掉不合规的内容，从而让推送给用户的推文在社交圈内外都是“绿色”的。

信任和安全模型可以分为多个维度来评估，但推特团队考虑到竞品压力（the adversarial nature of this area），因此暂时只开源了部分模型，包括NSFW的图文、推文内容的有毒性和滥用性，具体定义如下：

pNSFWMedia：用于检测带有 NSFW 图像的推文的模型，包括成人和色情内容。
pNSFWText：用于检测带有 NSFW 文本、成人/性主题的推文的模型。
pToxicity：检测有毒推文的模型。毒性包括边缘内容，如侮辱和某些类型的骚扰。有毒内容并不违反 Twitter 的服务条款。
pAbuse：检测滥用内容的模型。滥用内容包括违反 Twitter 服务条款的行为，包括仇恨言论、有针对性的骚扰和辱骂行为。

接下来分别解析一下NSFW（Media和Text）、Toxicity和Abuse部分的训练代码。

NSFW
其中NSFW（Not Safe/Suitable For Work）是指工作场所不宜的网站超链接，多指裸露、暴力、色情或冒犯等不适宜公众场合的内容。最初这个词在博客上出现，在给出含有上述内容的超链接旁标注NSFW，用于警告观看者；后在论坛、帖子及有超链接之页面上也普遍适用NSFW。

NSFW模块包括Media和Text两部分，由于官方没有开源数据，所以不太清楚数据组织的具体形式。先直接看一下Media和Text的训练代码。

Media用于带有NSFW图像的推文，从模型命名“models/nsfw_Keras_with_CLIP_twitter_hypertuned”可以看出，特征应该是通过CLIP提取的，然后搭建如下的较为简单的MLP结构进行检测。

def build_model(hp):
  model = Sequential()
  optimizer = tf.keras.optimizers.Adam(
    learning_rate=0.001,
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-08,
    amsgrad=False,
    name="Adam",
  ) #优化器
  
  activation=hp.Choice("activation", ["tanh", "gelu"])
  kernel_initializer=hp.Choice("kernel_initializer", ["he_uniform", "glorot_uniform"])
  for i in range(hp.Int("num_layers", 1, 2)): #此处开始搭建模型
    model.add(tf.keras.layers.BatchNormalization())
    units=hp.Int("units", min_value=128, max_value=256, step=128)
    
    if i == 0: #第一层fc的输入是特征(None, 256)
      model.add(
        Dense(
          units=units,
          activation=activation,
          kernel_initializer=kernel_initializer,
          input_shape=(None, 256)
        )
      )
    else: #后续多层的fc
      model.add(
        Dense(
          units=units,
          activation=activation,
          kernel_initializer=kernel_initializer,
        )
      )
  
  #最后加入sigmoid使网络维度变成1维，即预测是否有NSFW的概率
  model.add(Dense(1, activation='sigmoid', kernel_initializer=kernel_initializer))
  model.compile(optimizer=optimizer, loss='binary_crossentropy', metrics=metrics)

  return model

Text类似Media，从模型配置“twitter_bert_base_en_uncased_augmented_mlm”可以看出，文本特征应该是通过BERT提取的，然后也搭建较为简单的2层MLP结构进行检测。

inputs = tf.keras.layers.Input(shape=(), dtype=tf.string, name=tweet_text_feature)
encoder = TextEncoder(
    max_seq_lengths=params['max_seq_lengths'],
    model_type=params['model_type'],
    trainable=params['trainable_text_encoder'],
    local_preprocessor_path='demo-preprocessor'
)
embedding = encoder([inputs])["pooled_output"] #提取文本特征
predictions = tf.keras.layers.Dense(2, activation='softmax')(embedding) #两层fc
model = tf.keras.models.Model(inputs=inputs, outputs=predictions)

但Text会多做一些文本预处理，来去除一些符号和表情，代码如下。

REGEX_PATTERNS = [
    r'^RT @[A-Za-z0-9_]+: ', 
    r"@[A-Za-z0-9_]+",
    r'https:\/\/t\.co\/[A-Za-z0-9]{10}',
    r'@\?\?\?\?\?',
]

EMOJI_PATTERN = re.compile(
    "(["
    "\U0001F1E0-\U0001F1FF"
    "\U0001F300-\U0001F5FF"
    "\U0001F600-\U0001F64F"
    "\U0001F680-\U0001F6FF"
    "\U0001F700-\U0001F77F"
    "\U0001F780-\U0001F7FF"
    "\U0001F800-\U0001F8FF"
    "\U0001F900-\U0001F9FF"
    "\U0001FA00-\U0001FA6F"
    "\U0001FA70-\U0001FAFF"
    "\U00002702-\U000027B0"
    "])"
  )

def clean_tweet(text):
    for pattern in REGEX_PATTERNS:
        text = re.sub(pattern, '', text)

    text = re.sub(EMOJI_PATTERN, r' \1 ', text)
    
    text = re.sub(r'\n', ' ', text)
    
    return text.strip().lower()

Toxicity
Toxicity主要检测有毒推文，毒性包括边缘内容，如侮辱和某些类型的骚扰，关键词如下。

keywords = {
    
    
    "politics": [
...
    ],
    "insults": [
...    
    ],
    "race": [
...
    ],
  }

Toxicity模型主要基于BERT进行训练，有英文或多语种的BERT来支持该模块。

def load_bertweet(**kwargs):
  bert = TFAutoModelForSequenceClassification.from_pretrained(
    os.path.join(LOCAL_MODEL_DIR, "bertweet-base"),
    num_labels=1,
    classifier_dropout=0.1,
    hidden_size=768,
  )
  if "num_classes" in kwargs and kwargs["num_classes"] > 2:
    raise NotImplementedError

  return bert, True

一些训练setting设置如下。

RANDOM_SEED = ...
TRAIN_EPOCHS = 4
MINI_BATCH_SIZE = 32
TARGET_POS_PER_EPOCH = 5000
PERC_TRAINING_TOX = ...
MAX_SEQ_LENGTH = 100

WARM_UP_PERC = 0.1
OUTER_CV = 5
INNER_CV = 5
NUM_PREFETCH = 5
NUM_WORKERS = 10

Abuse
Abuse是检测滥用内容的模型。滥用内容包括违反 Twitter 服务条款的行为，包括仇恨言论、有针对性的骚扰和辱骂行为，具体的label定义如下代码。

labels = [
  "has_non_punitive_action", #没有讨伐行为
  "has_punitive_action", #有讨伐行为
  "has_punitive_action_contains_self_harm", #有自残
  "has_punitive_action_encourage_self_harm", #鼓励自残
  "has_punitive_action_episodic", #有不定期行为
  "has_punitive_action_episodic_hateful_conduct", #有不定期憎恨行为
  "has_punitive_action_other_abuse_policy", #其他滥用条款
  "has_punitive_action_without_self_harm" #有讨伐但没有自残
]

模型上也较为简单，也基于BERT进行检测。

fe = FeatureEncoder(train)
inputs, preprocessing_head = fe.build_model_head(model=ptos_prototype, text_encoder=text_encoder_pooled_output)

cls_dropout = tf.keras.layers.Dropout(params['cls_dropout_rate'], name="cls_dropout")
outputs = cls_dropout(preprocessing_head)
outputs = tf.keras.layers.Dense(8, name="output", dtype="float32")(outputs)

model = tf.keras.Model(
  inputs=inputs,
  outputs=outputs
)

Twitter推荐系统的可信和安全模块解析（Trust and Safety Models）

猜你喜欢