用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？ - 代码天地

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

编程语言 2018-11-21 00:56:42 阅读次数: 0

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

但是，有些作者发表的文章充斥着色情与暴力，一旦被青少年看到，会产生难以想象的后果。我们需要对网络上的文章进行检测，以标记出其是否为色情文章，如果是，那么我们就要将其过滤不予显示。而人工检测在信息爆炸的今天几乎不可能实现。所以，我们提出了基于神经网络的色情文章检测。

具体的模型工作原理可以参考我翻译的一个关于NLP中CNN研究的博文。

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

进群：548377875 即可获取数十套PDF以及大量的学习教程！源码也是有的哦！

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

据处理

因为色情文章中往往会有较多的标点符号，而且网络小说中也会有各种乱码存在，对我们提取特征造成困难。所以，我们先把文章中的特殊字符与标点符号去掉。

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

然后，我们考虑到一篇小说可能会有上万字甚至更多。而文本卷积神经网络要求所有输入数据有一个统一的长度，如此长的数据对计算压力要求太高。而且如此长的数据对于模型来说没有很大意义。

考虑到一篇文章内，往往中间部分的内容比较能够代表本篇文章的主旨，所以我们数据的选取方式如下所示：

如果文章大于3000个词，则选取中间的1500个词；
如果文章小于3000个词，但是大于1500个词，则选取最后1500个词；
如果文章不大于1500个词，则利用特殊符号补全到1500个词。

我们的数据是中文数据，不像英文单词可以利用空格进行区分单词。我们使用的 jieba 库对文章进行分词。

将选取好的数据转换成数字后，文章数据如图所示：

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

模型

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

中conv1的卷积核大小为2，也就是对嵌入矩阵的相邻两行进行卷积计算，conv2的卷积核大小为3，conv3的卷积核大小为4，conv4的卷积核大小为5。每个卷积的维度为2，也就是有两个大小相同的卷积核进行卷积。经过卷积之后生成了两个1499*1向量，两个1498*1向量，两个1497*1向量，两个1496*1向量。

在池化层对8个向量进行最大池化，分别从每个卷积提取出1个特征值。将8个特征值拼接成一个8*1维向量，至此，我们就把文章中的特征提取出来了。

最后，我们将提取出来的特征送入softmax层进行分类，获得最终结果。

神经网络具体工作流程见翻译的博文。

训练

参数设置

batch_size = 16
循环次数 = 3
学习率 = 0.005
嵌入矩阵维度 = 32

交叉验证机与测试集选取

我们选取2000条数据作为测试集，剩余数据作为训练集。

然后在每次训练循环中随机抽取剩余数据的10%作为交叉验证集。

Accurate变化

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

可以看出，在训练稳定之后，训练集上的准确率保持在90%以上，平均准确率在98%以上。

在交叉验证集和测试集的平均准确率也在98%以上。

github地址：https://github.com/yudake/porn_fiction_classify

猜你喜欢

转载自blog.csdn.net/qq_42156420/article/details/84302309

用Python写了个色情文章检测器！投放各大自媒体！就年薪百万了？

用Python写了个检测文章抄袭，详谈去重算法原理

Pandas:写了一个简易的销量异常检测器

听说各大网站的色情图片识别都是用的这个程序？Python识别色情图

【特征检测器】检测器

自从用python写了个自动弹幕脚本后，各大主播都来找我，净赚十万！

自从用python写了个自动弹幕脚本后，各大主播来找我，净赚十万

质数检测器

检测新突破 | AlignDet：支持各类检测器自监督新框架（ICCV2023）

百万年薪python之路 -- day11 -- 迭代器

python和opencv构建运动检测器

python开发实践Canny边缘检测器

用Python写了个贪吃蛇

用Python写了个贪吃蛇

ChatGPT检测器(Detector)

自媒体文章原创度检测，提高文章通过率！

序列检测器(检测"10010序列")

ICCV 2023｜目标检测新突破！AlignDet：支持各类检测器完全自监督预训练的框架...

使用Python，OpenCV应用EAST文本检测器检测自然场景图像中的文本

15个自媒体写作素材来源|获取自媒体文章方案

【人脸识别6】用haar+adaboost训练自己的人脸检测器

自媒体文章如何提高原创度？有什么好用的在线原创检测工具？

自媒体文章如何提高原创度以及如何检测原创度

自媒体如何提高文章推荐量，提高文章推荐量的6个方法

【python】我用python写了一个可以批量查询文章质量分的小项目（纯python、flask+html、打包成exe文件）

【超越YOLOv4】百度自研超高效目标检测器——PP-YOLO

用C#写了个键盘记录器

用thinter, 写了一个计算器程序

基于相关性的检测器

verilog——序列检测器设计

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)