广东省数据知识产权存证登记平台
登记信息
拓波软件垃圾邮件内容评分规则库典型案例 已登记
  • 数据申请号:

    粤2026010503682

  • 数据登记号:

    SZ2026120001154.2

  • 关键词:

    垃圾邮件内容,垃圾邮件主题,垃圾邮件发件人,垃圾邮件收件人,垃圾邮件评分

  • 登记时间:

    2026-03-16

  • 登记主体:

    广州拓波软件科技有限公司

  • 平台证书编号:

    20260144000001154

  • 服务机构:

    暂无

  • 法院编号:

    暂无

区块链信息
  • 上链时间:

    暂无

  • 所属区块链:

  • 证据指纹:

    8d7ed6446564cbc661dc1f3b412b4ebbf73e8976ad6d714468b428c5ba8f299e38435d621ea709a769eac58e46c9542893015a3798145855a65f1f746305bae2

  • 区块链存证证书编号:

数据信息
数据简介
本数据集包含2330条经过验证的中文垃圾邮件检测规则,采用结构化存储格式,覆盖邮件内容、主题及收发件人三大核心检测维度。内容检测规则基于高频关键词(如'免费'、'发票'等)和文本特征构建,包含正则表达式匹配模式规则;主题检测规则针对诱导性标题(如'请查阅'、'税票'等)设计;收发件人检测规则则整合域名黑名单。数据通过真实邮件样本验证,适用于企业邮件网关、云服务反垃圾系统等场景,也可作为机器学习训练数据或规则引擎直接调用。
  • 数据来源:

    自行产生

  • 数据所属行业分类:

    I65 软件和信息技术服务业

数据处理规则说明
本次数据处理的原始数据为用户邮件系统中被标记为 “垃圾邮件” 的邮件内容,对应数据集中的 “原始邮件内容” 列,该列直接取自原始邮件文本,包含邮件主题或正文等未经加工的核心信息;在原始数据的加工过程中,我们运用自研邮件内容解析服务、jieba 分词库、正则表达式引擎及 Python的pandas库等工具,基于 TF-IDF模型结合行业黑名单库,从 “原始邮件内容” 中自动提取高风险关键词,标注其类型、匹配逻辑、风险等级及应用场景,最终形成了 “从原始内容中提取的关键字”“关键字类型”“匹配逻辑”“风险等级”“应用场景” 等加工后的数据列,这些新数据列与原始数据列共同构成了垃圾邮件分类结果表
应用场景描述
本数据主要运用于识别垃圾邮件,通过匹配邮件内容等,对垃圾邮件进行有效的拦截,可以显著减少用户垃圾邮件接收量,提升工作效率和信息安全。通过该反垃圾邮件数据库,可以协助邮件系统和邮件网关对垃圾邮件的拦截。
  • 数据格式:

    xlsx

  • 数据更新频率:

    日更新

  • 数据量:

    2330

样例数据
1 sf5a699f11a14 viagra主题内容 12 2018-01-25 17:10:41 +0800 1 男人的救星!viagra 限时大促,让你重振男人雄风,提升夫妻生活质量,数量有限,赶快下单! viagra 药品推广 从原始邮件内容中提取关键词'viagra'。 高风险 电商平台评论过滤 2 sf5a699f11a20 exe 5 2018-01-25 17:10:41 +0800 1 紧急通知:您有一份重要的exe文件待下载,点击链接即可获取。 exe 恶意软件 从原始邮件内容中提取关键词'exe'。 中风险 社交软件消息过滤 3 sf5a699f11a34 Fifth Third Bank发件人 12 2018-01-25 17:10:41 +0800 1 来自 Fifth Third Bank:您的账户存在异常交易,请尽快核验。 Fifth Third Bank 金融诈骗 从原始邮件内容中提取发件人'Fifth Third Bank'。 高风险 邮件过滤
数据结构样例
拓波软件垃圾邮件内容评分规则库典型案例表包含字段如下所示:f_pk_id、f_spfid、f_name、f_score、f_modifytime、f_enable、f_islocal、f_createtime、原始邮件内容、从原始内容中提取的关键字、关键字类型、匹配逻辑、风险等级、应用场景
数据状态
  • 2026-03-16

    数据知识产权登记完成