如何从视频聊天软件源码下手，解决敏感词屏蔽问题

在这里插入图片描述

视频聊天平台鱼龙混杂，用户素质良莠不齐，时常会出现用户名中出现的不雅字符、聊天室内出现不和谐文字的情况，因此在用户每次发言时，视频聊天软件源码都会自动对其文字进行验证，通过匹配“脏字库”中的固定词句，屏蔽掉大部分脏字，具体做法如下：

一、整理一份“违禁词语”，并以数组的格式保存下来，以备后期导入。市面上也有整理好的脏字库数据组，可以直接拿来修改使用。

如：$arr=array( //把违禁词用数组保存 
‘0’=>’是个鬼’
 ‘1’=>’就是啊’
 ‘2’=>’哦呵呵’

二、在用户每次发言后，进入快速的系统审核阶段，将用户发言与写入视频聊天软件源码中的违禁词进行对比，将违禁词转化为乱码符号。

如：$word=’主播是个美女哦’; //需要验证的发言
$string=array(); //生成一个数组用来保存之后的数组
foreach($arr as $k=>$v){ //对比违禁词库
$str=’’; //生成字符串
for($i=0;$i<mb_strlen($v);$i++){  //计算违禁词的数量
$str.=’*’;  //生成同样数量字符串，如：****、&&&&、####
}
$string[]=$str; //生成与违禁词数组对应的*数组

三、对比结束后，用户发言才可发送出来，或告知用户“有违禁词禁止发送”

return true;//表示含有该敏感词
else
return false;//表示不含有该敏感词

在最开始，人们常用正则表达式进行文字匹配，筛选出关键词进行屏蔽，但那样一来效率太慢，二来无法处理同音字情况，不是最好的解决方式，现在我们可以用更好地方式解决这一问题：通过特征匹配，判断该文本与视频聊天软件源码中敏感词的相似度。
1、第一种方式是，以某段“距离”为单位，将文本与违禁词库进行比对，而不是精准比对，这样做的好处是，在用户发布违禁词时，将违禁词里掺杂空格、或者将违禁词倒着写的情况，很容易被筛选出来。
2、第二种方式是特征匹配，形近字、音近字、简转繁、加空格等进一步精细筛查违禁词

当然，现在技术已经不单单有针对文本的屏蔽机制了，更重要的语音识别和视频识别技术也已经相对成熟，视频聊天软件源码可以接入相关SDK，通过视频截图和图像识别来识别肤色、识别人体特征、识别人的肢体暴露百分比、识别人物动作，有也可以通过语音转文字识别、音频关键字识别和弹幕监控，进一步识别不当内容。相信在未来，视频聊天软件源码的敏感词屏蔽功能会越做越好。

文章为原创，转载请注明出处及作者。

weixin_mlmcha

发布了33 篇原创文章 · 获赞 4 · 访问量 2642

私信关注

如何从视频聊天软件源码下手，解决敏感词屏蔽问题

猜你喜欢