敏感关键词:敏感词库下载

敏感关键词:敏感词库下载
wanghao
wanghao
573
阅读
0
评论
2021年11月08日15:30:37 0 573

敏感关键词:敏感词库下载  文末下载

敏感词库大全,敏感词汇大全,可用于敏感词检测,敏感词过滤

敏感信息词概论

大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词

敏感信息词举例说明

例如“Pi”这个词,在国内“Pi”绝对算的上是敏感词语,主要原因一是不雅,二是与黄色有连带关系,但在现实中,“Pi”的使用率却出奇的高,比如人们愤愤然说的“Pi民”、“Pi话”、“狗Pi不通”、“Pi滚尿流”等等,在正常的行文中经常可以看到。同时“Pi”在泰国一般用于称呼某个人,如您叫陈,则在泰国就会被称为“Pi陈”,同时果称谁为“Pipi”,那更是尊称,比如某老人或女人姓王,你叫她“Pipi王”,她会高兴得不得了。显然,在泰国“Pi”是个尊称,类似我们说老王、小罗之类。

特点

1、2017敏感信息词库整合了多个敏感词库,并添加java实现敏感词过滤的工具类,需要根据具体业务适当调整词库内容。

2、敏感词集合,共2W+的敏感词,已通过程序算法去除重复项。

3、里面整理了最新网络词库

4、考虑到各行各业需要的分词规则不同,故没有合并

5、文件为txt、xlsx文本用于敏感词过滤

百度经验敏感词排查方法

一、大致锁定敏感词出现的范围,进行替换尝试

1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题。如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。

2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧

二、对不确定的词,进行搜索尝试

1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了

2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜

三、尝试若失败,建议通过隔离段落法来排查

1.在使用这种方法之前,你必须要明白这么做的代价。

那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”

2.此时的代价有:

风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了

风险2:可能因为段落的残损导致审核不通过。

风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了

3.隔离法究竟隔离几段,留下几段呢?

方法一:

一般的方法都是减去其中一段,提交剩下的段落,以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。

但是有两个缺点,

1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)

2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦

方法二:一段一段提交。

先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。

但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。

不过总的来说,这种方法并不常用

方法三:,不断划分文章进行排查(相当于二分法)。

把所有段落分成两部分,先隔离第二部分,提交第一部分。

第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。

此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。

此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法

温馨提示! 你需要支付 ¥5.80 元后才能查看付费内容 微信支付 支付宝支付
打赏 点赞(0)
weinxin
投诉建议
文章名+链接地址,发送到此微信:tourism52
织梦dede,首页,列表,调用,所有,图集,方法 站长学院

织梦DEDE首页、列表调用所有图集方法

今天织梦58碰到一个用织梦完成栏目调用图集列表的问题,织梦本身解决不了这个问题,只能栏目list标签完成调用文章里的缩略图,无法完成调用图集里的所有图片,需要进行小小的修改文件,才...
dedecms,网站,打开,速度慢,解决,方法,docx 站长学院

DEDECMS网站打开速度慢解决方法.docx

使用DEDECMS建网站后,经常会出现网站打开速度慢,DEDECMS网站打开速度慢分为以下几种:网站首页打开慢,网站内页打开慢,网站后台打开慢。(相关知识:如何测网站访问速度)下面...
织梦5,转换,帝国,ms7,完整 站长学院

织梦5.7转换帝国cms7.2完整版

为什么要把织梦dedecms网站转换成帝国cms?现在织梦dedecms基本上竖内使用率最高的网站系统,因为其后台使用简单、模板制作也简单,适合新手快速上手,但织梦有两个致命缺点:...
fastadmin,控制器 站长学院

fastadmin控制器

fastadmin控制器基类控制器FastAdmin中定义了三个基类控制器,分别位于application/common/controller/Api.php //API...

评论列表 共有 0 条评论

暂无评论