敏感关键词:敏感词库下载

敏感关键词:敏感词库下载
wanghao
wanghao
1581
阅读
0
评论
2021年11月08日15:30:37 0 1581

敏感关键词:敏感词库下载  文末下载

敏感词库大全,敏感词汇大全,可用于敏感词检测,敏感词过滤

敏感信息词概论

大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词

敏感信息词举例说明

例如“Pi”这个词,在国内“Pi”绝对算的上是敏感词语,主要原因一是不雅,二是与黄色有连带关系,但在现实中,“Pi”的使用率却出奇的高,比如人们愤愤然说的“Pi民”、“Pi话”、“狗Pi不通”、“Pi滚尿流”等等,在正常的行文中经常可以看到。同时“Pi”在泰国一般用于称呼某个人,如您叫陈,则在泰国就会被称为“Pi陈”,同时果称谁为“Pipi”,那更是尊称,比如某老人或女人姓王,你叫她“Pipi王”,她会高兴得不得了。显然,在泰国“Pi”是个尊称,类似我们说老王、小罗之类。

特点

1、2017敏感信息词库整合了多个敏感词库,并添加java实现敏感词过滤的工具类,需要根据具体业务适当调整词库内容。

2、敏感词集合,共2W+的敏感词,已通过程序算法去除重复项。

3、里面整理了最新网络词库

4、考虑到各行各业需要的分词规则不同,故没有合并

5、文件为txt、xlsx文本用于敏感词过滤

百度经验敏感词排查方法

一、大致锁定敏感词出现的范围,进行替换尝试

1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题。如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。

2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧

二、对不确定的词,进行搜索尝试

1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了

2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜

三、尝试若失败,建议通过隔离段落法来排查

1.在使用这种方法之前,你必须要明白这么做的代价。

那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”

2.此时的代价有:

风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了

风险2:可能因为段落的残损导致审核不通过。

风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了

3.隔离法究竟隔离几段,留下几段呢?

方法一:

一般的方法都是减去其中一段,提交剩下的段落,以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。

但是有两个缺点,

1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)

2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦

方法二:一段一段提交。

先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。

但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。

不过总的来说,这种方法并不常用

方法三:,不断划分文章进行排查(相当于二分法)。

把所有段落分成两部分,先隔离第二部分,提交第一部分。

第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。

此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。

此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法

温馨提示! 你需要支付 ¥5.80 元后才能查看付费内容 微信支付 支付宝支付 余额支付
打赏 点赞(0)
weinxin
投诉&咨询
文章名+链接地址,发送到此微信:tourism52
历史上的今天
06月
08
thinkphp常用系统配置大全 站长学院

thinkphp常用系统配置大全

Thinkphp是目前最主流的php轻量型框架之一,作为一个功能完备的php框架,它里面内置了许多的配置,通过修改这些系统的设置可以很方便的对thinkphp的一些内容进行修改,本...
站长学院,站长,学院,匆匆,那些 站长学院

站长学院的匆匆那些年

本周百度站长平台一件大事,也是之前小编在微信里透露过的一件大事发生了!百度站长学院频道上线了!一个线上开学典礼引起无数童鞋围观,看到你们这么好学,小编代表站长平台表示甚是欣慰啊!那...
dedecms织梦,安装,目录,思路,docx 站长学院

dedecms织梦安装根目录思路.docx

关于dedecms(织梦)安装在子目录显示在站点根目录的思路。相信有不少朋友和我一样对两种cms都不熟悉,所以都安装到各自的子目录下进行调试,但毕竟是在子目录下,不利于SEO,随着...
dedecms中对,发布,人的,修改 站长学院

DEDECMS中对发布人的修改

需求分析:因为我们的网站(oemay女人妆)中的新闻基本都是采集的,但是因为采集的都是发布人都是同一人,为了能更好的统计编辑工作业绩,希望在采编进行审核和二次编辑并发布的时候,将发...

评论列表 共有 0 条评论

暂无评论