如何从视频聊天软件源码下手,解决敏感词屏蔽问题

在这里插入图片描述

视频聊天平台鱼龙混杂,用户素质良莠不齐,时常会出现用户名中出现的不雅字符、聊天室内出现不和谐文字的情况,因此在用户每次发言时,视频聊天软件源码都会自动对其文字进行验证,通过匹配“脏字库”中的固定词句,屏蔽掉大部分脏字,具体做法如下:

一、整理一份“违禁词语”,并以数组的格式保存下来,以备后期导入。市面上也有整理好的脏字库数据组,可以直接拿来修改使用。

如:$arr=array( //把违禁词用数组保存 
‘0’=>’是个鬼’
 ‘1’=>’就是啊’
 ‘2’=>’哦呵呵’

二、在用户每次发言后,进入快速的系统审核阶段,将用户发言与写入视频聊天软件源码中的违禁词进行对比,将违禁词转化为乱码符号。

如:$word=’主播是个美女哦’; //需要验证的发言
$string=array(); //生成一个数组用来保存之后的数组
foreach($arr as $k=>$v){ //对比违禁词库
$str=’’; //生成字符串
for($i=0;$i<mb_strlen($v);$i++){  //计算违禁词的数量
$str.=’*’;  //生成同样数量字符串,如:****、&&&&、####
}
$string[]=$str; //生成与违禁词数组对应的*数组

三、对比结束后,用户发言才可发送出来,或告知用户“有违禁词禁止发送”

return true;//表示含有该敏感词
else
return false;//表示不含有该敏感词

在最开始,人们常用正则表达式进行文字匹配,筛选出关键词进行屏蔽,但那样一来效率太慢,二来无法处理同音字情况,不是最好的解决方式,现在我们可以用更好地方式解决这一问题:通过特征匹配,判断该文本与视频聊天软件源码中敏感词的相似度。
1、第一种方式是,以某段“距离”为单位,将文本与违禁词库进行比对,而不是精准比对,这样做的好处是,在用户发布违禁词时,将违禁词里掺杂空格、或者将违禁词倒着写的情况,很容易被筛选出来。
2、第二种方式是特征匹配,形近字、音近字、简转繁、加空格等进一步精细筛查违禁词

当然,现在技术已经不单单有针对文本的屏蔽机制了,更重要的语音识别和视频识别技术也已经相对成熟,视频聊天软件源码可以接入相关SDK,通过视频截图和图像识别来识别肤色、识别人体特征、识别人的肢体暴露百分比、识别人物动作,有也可以通过语音转文字识别、音频关键字识别和弹幕监控,进一步识别不当内容。相信在未来,视频聊天软件源码的敏感词屏蔽功能会越做越好。

文章为原创,转载请注明出处及作者。

发布了33 篇原创文章 · 获赞 4 · 访问量 2642

猜你喜欢

转载自blog.csdn.net/weixin_45629732/article/details/103366897