数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院

移动互联网打破了传统门户网站的交流屏障,社交软件则架起了信息之间无障碍沟通的桥梁。

根据《2019年社交行业研究报告》显示,目前市面上的社交软件一共有6000多个,包括内容社交、工具社交、场景社交三个方面。

现今,社交软件不仅仅是普通的交友软件,它本质上是一种传递信息的媒介,并具有极大的包容性、复杂性、广泛性。成千上万个社交软件散布在网络世界的各个角落,它所带来的改变足以带动整个互联网时代信息交流的变迁。

它容许并鼓励全球不同地域的用户注册登录,每一位用户都可以自由发言尽情创作,以信息分享为核心,进行个性交流、评论转发、在线直播、扩列交友、知识创作等操作,所以它是数字化信息传播的重要落地典范。但是这把双刃剑,同时也存在着很多令人头疼的安全风控隐患。

社交行业挑战升级

伴随着产业互联网数字化的不断推进,社交软件的容错性也越来越低。

以信息传播为载体的6000+社交软件在分类上成树状图分布。主要以知识性内容社交分享(知乎、CSDN、微博、抖音、快手等)、即时通讯社交聊天(微信、探探、陌陌等)、各行业垂直场景社交交流(脉脉、马蜂窝等)三类为主。

ソーシャルソフトウェアの分類

面对这些多场景多渠道社交形式,显而易见,有交流的地方一定会有文本内容,并且在某些社交平台上,却存在一些共性风控问题。如频繁出现暴恐、涉政、低俗、辱骂等违法违规内容,以及发布黑产广告导流等违规信息,这不仅违反了网络安全的和谐秩序,也对用户造成了恶劣的观感体验,造成正常用户流失。

从根本原因上去剖析,除了小部分原因是用户自身的行为违规,大部分原因是由于一些黑产分子将社交软件看成了自己的“吸金池”。且作案手法层出不穷:游戏点金、杀猪盘、恶意营销薅羊毛、黄牛倒卖机票火车票演唱会门票…

在国家监管部门的指导下,社交平台也采取了一系列处罚措施。

2020年8月,微博管理方关闭了109个黑产导流账号;斗鱼关停违规直播间525个、封禁账号571个;武汉市指导某直播平台依法依规关闭违规直播间525个,封禁违规用户账号571个,清理标题党136个。

截止2020年9月,全国网信系统同电信部门处罚违法网站6907家,有关网站平台依法关闭各类违法违规群组86万余个…因此,国家对社交软件的内容监管要求也越来越严。

各类社交平台违规内容的不断频发,黑产团伙花样百出的作案手法,使得内容审核挑战的不断升级,给社交软件带来很大的生存压力。

黑产攻防之战愈演愈烈,针对如何解决此类问题,数美人工智能研究院结合行业背景,对智能文本识别技术进行了深入研究和开发,通过自研天净智能内容过滤引擎来应对挑战。

社交软件内容精准过滤器:数美智能文本审核

数美人工智能研究院发现,社交软件的文本审核主要聚焦在直播视频弹幕、论坛灌水发帖、产品评论留言、头像昵称签名、垃圾广告群发、游戏频道聊天六大方面。

对于不同的应用场景,就对智能文本的语义识别精准度、识别范围广泛性、多语种识别等方面要求极高。对此,数美科技智能文本过滤通过建立完善用户画像系统和特色智能语义分析功能,结合多场景、多维度判定,支持涉政违禁、低俗污秽、广告导流风险识别。

スマートテキストレビューテクノロジーフレームワークの図

针对不同的社交场景,数美智能文本过滤采用语义分析技术和多种文本识别模型和策略、以及文本处理技术,包括采用基于敏感词库的名单服务。基于深度学习的NLP模型,用户画像的行为分析,实时分布式规则引擎、统计引擎等,对海量文本数据进行学习和训练,能够精准识别语义并进行风险判断。

涉政违规识别

实时同步网安、网信办等有关部门监管要求,持续更新数十万量级的敏感词库,通过灵活的名单匹配
(白名单、黑名单、忽略名单、变体名单等)和智能NLP模型,精准有效识别文本中的涉政违规风险。

リーダー名、機密イベント、禁止された本、禁止された映画、カルト迷信、政府機関、反動部隊、禁制品、暴力的なテロ、英雄と殉教者、ホットイベントなどを含み、ビジネスシナリオでの機密性の高い言葉の個別設定、および異形(同義語、同様の言葉、ピンイン、挿入の混乱、ほのめかしなど)とさまざまな柔軟なマッチング方法。

下品な違反の識別

大量の業界コーパスを蓄積することにより、NLPテクノロジーに基づく下品で虐待的なモデルをトレーニングし、下品なセンシティブボキャブラリーと組み合わせて、テキスト内の非準拠の下品および不潔なコンテンツを正確に識別します。また、コンテンツを複数のレベルに分割して、さまざまなアプリケーション、シナリオ、および役割の個別のレビュー基準に柔軟に対応します。

インテリジェントなNLPモデルは、ポルノに敏感な単語と組み合わされ、複数の角度とすべての方向から遮断し、カスタムの機密単語リストをサポートします。また、インテリジェントセマンティック認識テクノロジーを使用して、異なるコンテキストで同じ単語に対応する識別結果を生成します。

広告流用認識

主にソーシャルソフトウェアの広告流用グループのブラックインダストリーグループによってリリースされた多数のスパム広告および詐欺広告を対象としており、インテリジェントなテキストバリアント認識機能を使用して、不正な広告と流用広告を正確に識別し、広告法のコンプライアンス検査をサポートし、違反のリスクを軽減できます。 、何万もの主流の連絡方法(WeChat、QQ、携帯電話番号、Webサイト、公式アカウント、Baidu検索、Weibo、広告法コンプライアンスなど)のバリアント機能ライブラリ。

スマートテキストレビューリスクトレンドデモ

中国の文化は広く深遠であり、同じ単語の異なるコンテキストでの意味は大きく異なります。従来の機密性の高い単語照合技術の正確さは、正確かつ効率的なレビューの要件を満たすのが困難です。SUMEIのインテリジェントなテキストフィルタリングと認識の精度は99%と高いため、テキストをすばやく処理し、屠殺率を大幅に削減し、手動によるレビューのコストを削減し、オンラインリスクを効果的に排除できます。

テクニカル指標の観点から、Sumei Smart Text Filtering APIの平均応答時間は50ミリ秒未満、最大応答時間は500ミリ秒、タイムアウト率は0.1%未満、スループットは100QPSを超え、需要のレベルに応じて拡張できます。また、UTF8多言語テキストの文字エンコーディングをサポートでき、テキストコンテンツは1MBと20,000ワードに制限されています。

スメイの主な技術的利点:テキスト分類NLPモデル

Sumei Smart Text Filterは、word2vecワードベクトル、fasttextテキスト分類、およびその他のテクノロジーを使用して、大量のテキストコーパスに基づいてNLPモデルをトレーニングします。

Word2Vecは、大量のテキストコーパスから教師なしの方法で意味論的知識を学習するためのモデルであり、自然言語処理(NLP)で広く使用されています。単語ベクトルを使用して、テキストを学習することにより、つまり、埋め込みスペースを介して意味的に類似した単語をスペースに近接させることにより、単語の意味情報を特徴付けます。

埋め込みは実際にはマッピングであり、単語を元の空間から新しい多次元空間にマッピングします。つまり、元の単語空間を新しい空間に埋め込みます。

その中でも、Word2Vecモデルには、主にSkip-GramとCBOWの2つのモデルがあり、直観的に理解すると、Skip-Gramはコンテキストを予測するための特定の入力単語です。また、CBOWは、入力単語を予測するための特定のコンテキストです。

ここに画像の説明を挿入
ここに画像の説明を挿入

fastTextデータベースは、テキストの表現と分類のための定量的ソリューションを確立するのに役立ちます。fastTextは、自然言語処理と機械学習で最も成功した概念を組み合わせています。これには、bag-of-wordsとn-gramバッグを使用して文を表現することや、サブワード情報を使用すること、非表示の表現を通じてカテゴリ間で情報を共有することが含まれます。

さらに、Sumei Artificial Intelligence Research Instituteはソフトマックスレベルを使用して(カテゴリの不均一な分布を利用して)、計算プロセスを高速化します。これらの異なる概念は、効果的なテキスト分類と学習単語ベクトル表現の2つの異なるタスクに使用されます。テキスト処理の分野では、最近ディープニューラルネットワークが普及していますが、そのトレーニングとテストのプロセスは非常に遅く、大規模なデータセットへの適用も制限されています。FastTextはこの問題を直接解決できます。

fastTextはテキスト分類に焦点を当てています。これにより、特に大きなデータセットですばやくトレーニングできます。標準のマルチコアCPUを使用して、10分間で10億を超える語彙モデルをトレーニングした結果を得ました。さらに、fastTextは5分間で500,000の文を300,000を超えるカテゴリに分割できます。

Sumei Artificial Intelligence Research Instituteは、長い間、インテリジェントテキスト認識NLPモデルのトレーニングと開発に深く関わっており、黒の制作詐欺グループと絶えず戦い、コンテンツ、行動、肖像画の複数の側面からAIと協力して、違法なコンテンツを正確かつ効果的に識別し、ワンストップショップを形成しています。インテリジェント風制御エンジン。専門のAIリスク管理ソリューションプロバイダーであるSUMEIテクノロジーは、世界中の何千ものソーシャル業界顧客のオンラインビジネスを引き続きエスコートします。

おすすめ

転載: blog.csdn.net/SHUMEITECH/article/details/108731940