广东省数据知识产权存证登记平台
登记信息
数字化系统故障识别与AI训练的缺陷数据集 已登记
  • 数据申请号:

    粤2025112002703

  • 数据登记号:

    SZ2025120024902.7

  • 关键词:

    AI测试训练、业务系统故障识别与验证

  • 登记时间:

    2025-12-31

  • 登记主体:

    广州掌动智能科技有限公司

  • 平台证书编号:

    20251144000024902

  • 服务机构:

    暂无

  • 法院编号:

    广州互联网法院 - 643d13de0a04381a6cb3413a2b3512dd350caa9ee4c1a37590f02d841cea8698-749fc1a4;legalxchain

区块链信息
  • 上链时间:

    2025-12-24

  • 所属区块链:

    司法联盟链·广东省知识产权保护中心

  • 证据指纹:

    e1ae194ca23fedb084585b8f70a438cabf3091fed2d5a0e315858378b5bd8969769b05d36bdb418feef229bc18279e60a9b1238aab179fb245d31070c1a9b740

  • 区块链存证证书编号:

    LXM-GDIPI-23202512246276547009

数据信息
数据简介
1、本数据集是专注业务系统故障识别与验证的AI测试数据集,核心目标是以高质量数据推动IT运维领域AI模型的自动化与智能化应用。通过严谨的业务压力测试与故障注入实验采集,后续经数据清洗、特征标注等严格加工处理,完全覆盖业务请求全周期(登录-业务操作-正常退出),不仅包含CPU过载(如97%负载)、内存泄漏(如85%占用)、网络延迟(如20000ms延迟)等典型故障数据,还记录故障恢复过程。 2、本数据集的核心功能是支持AI模型高效训练与验证,助力模型精准识别与分类各类业务系统故障。通过深度学习技术,模型可从数据中学习故障特征,实现故障的快速定位与提前预警。作为高性能的AI训练与验证资源,其不仅在技术层面推动故障预测模型的迭代发展,更能在实践中优化企业IT运维策略,减少业务中断时间、提升服务连续性,为企业IT运维效率提升与安全保障筑牢坚实基础。
  • 数据来源:

    自行产生

  • 数据所属行业分类:

    I65 软件和信息技术服务业

数据处理规则说明
1、数据采集:通过搭建分布式架构测试环境,基于XRunner(性能测试/流量生成)、unieye(监控捕获),模拟电商平台场景。XRunner生成10-100并发递增加压流量,unieye采集原始数据(程序版本、端口、IP、网卡、总数据量、源目的网络时延等指标),完成数据上报存储。 2、处理规则: (1)数据清洗:采用Pythonpandas库、正则表达式工具,通过去重算法、规则化填充/标记法、字符串标准化算法,处理重复、缺失、格式错误的数据; (2)标注与筛选:基于时间戳匹配、分类编码算法完成场景标注,通过阈值筛选、场景补全策略优化数据集; (3)转换与聚合:运用Spark框架自动化批量处理,通过特征工程算法(统计、时序特征提取)聚合核心指标,生成创新性数据(主机名、网络时延、数据类型、cpu核数、故障特征等); (4)合规处理:采用哈希脱敏算法保障数据合规。 (5)产出数据集:输出JSON格式独立文件集合,单文件对应单个故障场景,创新性数据对应列为“N网络延迟、P数据类型、R磁盘利用率、Scpu核数、U开始时间、V结束时间、X页面加载时间、AD并发数、AE故障原因”等流量与性能数据
应用场景描述
1、本数据集适配IT运维智能化、系统性能优化研究等核心场景,专为IT公司运维团队、AI研发企业、云计算服务商及数据分析公司定制。 2、对IT运维团队,可作为故障预测模型训练数据,快速构建能识别CPU过载、内存泄漏、网络拥堵等故障的AI模型,显著提升诊断预测效率与精确度,加快响应速度,减少业务中断时长及经济损失;也可作为应急演练模拟工具,通过真实场景数据强化团队处置能力,提升业务连续性。 3、对AI研发企业及数据分析公司,丰富的故障场景数据能加速模型训练,多样化模拟数据可验证现有模型准确性,保障AI系统可靠稳定,缩短研发周期、提升产品竞争力,助力抢占市场先机。 4、对云计算服务商,数据可辅助分析系统故障状态下的表现,为硬件升级、软件调优提供科学依据,优化服务质量、增强客户粘性,进而提升市场份额与经济效益。 5、作为高性能训练与验证资源,产品既推动故障预测模型技术迭代,更切实为各用户提升运维效率、保障系统安全、降低运营成本,筑牢效益增长基础。
  • 数据格式:

    XLSL

  • 数据更新频率:

    其他

  • 数据量:

    37121

样例数据
1、程序版本(PROBE_VER)0107-98主机名(host)172.16.2.198操作系统名称(SYSTEM)CentOS 7.9.2009源IP(SRC_IP)172.16.2.198目的IP(DST_IP)172.16.2.172源端口(SRC_PORT)37312目的端口(DST_PORT)9000网卡(NIC)any总数据量(BYTES)1033网络时延(NET_DELAY)0.17主机名(message)node5数据类型(message-type)comm磁盘利用率(DISK_RATIO)8.15CPU核数(TOTAL_CPU)32有效信息(LICENSE)Only for POC开始时间(BEGIN_TIME)2024-5-6 0:12:01结束时间(END_TIME)2024-5-6 0:12:01响应时间(HTTP_RESPONSE)6.255页面加载时间(PAGELOAD)6.255请求方法(METHOD)GET域名(DOMAIN)172.16.2.172:9000并发数(NCURRENT)10故障原因(FAULT_TYPE)CPU故障85% 详细样例见附件 附件下载
数据结构样例
1、程序版本(PROBE_VER)0107-98主机名(host)172.16.2.198操作系统名称(SYSTEM)CentOS 7.9.2009源IP(SRC_IP)172.16.2.198目的IP(DST_IP)172.16.2.172源端口(SRC_PORT)37312目的端口(DST_PORT)9000网卡(NIC)any总数据量(BYTES)1033网络时延(NET_DELAY)0.17主机名(message)node5数据类型(message-type)comm磁盘利用率(DISK_RATIO)8.15CPU核数(TOTAL_CPU)32有效信息(LICENSE)Only for POC开始时间(BEGIN_TIME)2024-5-6 0:12:01结束时间(END_TIME)2024-5-6 0:12:01响应时间(HTTP_RESPONSE)6.255页面加载时间(PAGELOAD)6.255请求方法(METHOD)GET域名(DOMAIN)172.16.2.172:9000并发数(NCURRENT)10故障原因(FAULT_TYPE)CPU故障85%。
数据状态
  • 2025-12-31

    数据知识产权登记完成