广东省数据知识产权存证登记平台
登记信息
税务大模型涉税问题意图识别训练数据 已登记
  • 数据申请号:

    粤2026031104083

  • 数据登记号:

    SZ2026120001825.7

  • 关键词:

    涉税知识;问答;税务问题

  • 登记时间:

    2026-04-17

  • 登记主体:

    昆明南方源信息科技有限公司

  • 平台证书编号:

    20260344000001825

  • 服务机构:

    暂无

  • 法院编号:

    广州互联网法院 - 7022531f18049f2c53087a280b55c76ba660735b73194301fa850d98ab64ce04-749fc1a4;legalxchain

区块链信息
  • 上链时间:

    2026-04-09

  • 所属区块链:

    司法联盟链·广东省知识产权保护中心

  • 证据指纹:

    0e533a26ab926a2172c152448fae12d6dab470383ab448fee6475ae9ed007ece75f50e77acc8b7cd07fc19b8b6adacaea67c4bb6bcfc7e29276ee3b0ce5f04a8

  • 区块链存证证书编号:

    LXM-GDIPI-23202604095591662555

数据信息
数据简介
本数据知识产权是专为税务智能问答大模型、税务智能客服系统打造的涉税问题意图识别训练数据集,聚焦企业与自然人全场景涉税高频、疑难咨询需求,精准破解当前税务大模型对口语化、碎片化、非规范化涉税问题理解偏差、意图识别准确率低的行业痛点,为税务智能化服务升级提供核心数据支撑。 数据集以真实涉税咨询数据为基础,通过对原始问题数据进行加工处理,最终生成标准化的用户意图分类等结构化数据。 本数据适配税务智能客服、电子税务局智能问答、税务APP问答解析等全渠道场景,可有效提升税务大模型意图识别能力,将准确率提升至95%以上。通过分析意图分类准确率、实体提取完整性等核心指标,助力模型精准理解非规范涉税问题,为后续标准答案匹配、智能计税提供高质量结构化基础,大幅提升税务智能服务的响应效率与精准度。 本数据集可直接用于税务智能问答相关系统的意图识别模块训练与优化,推动税务服务从“人工响应”向“智能精准”转型,缓解基层税务咨询压力,优化税收营商环境,切实增强纳税人获得感。
  • 数据来源:

    自行产生

  • 数据所属行业分类:

    I65 软件和信息技术服务业

数据处理规则说明
本数据集为税务大模型涉税问题意图识别训练数据集,聚焦企业与个人全场景涉税高频、疑难咨询问题。原始数据涵盖原始问题编号、原始涉税问题文本、问题来源渠道等基础信息,通过税务专属分词工具完成专业分词,借助 BERT-BiLSTM-CRF 模型提取主体类型、税种类型等 6 类核心实体,运用轻量化注意力匹配算法完成意图二级分类及置信度计算,生成去噪修正后文本、税务专业分词结果、标准化问题文本、一级 / 二级意图分类等新数据。通过分析意图分类准确率、实体提取完整性等指标,可帮助税务大模型精准理解非规范涉税问题,提升意图识别效率,推动税务智能客服、电子税务局智能问答等场景的服务优化。
应用场景描述
用于税务智能问答大模型、税务智能客服系统的用户问题意图识别模块训练与优化,针对自然人 / 企业用户提出的口语化、碎片化、非规范化涉税问题,实现精准的 6 类核心税务实体提取(主体、税种、业务场景、数值、地域、时间)、税务意图二级分类及问题标准化转换,解决税务大模型对非规范问题理解偏差、意图识别准确率低的行业痛点。适配税务智能客服、电子税务局智能问答、税务 APP 问答解析等全渠道场景,可将大模型意图识别准确率提升至 95% 以上,为后续标准答案匹配、智能计税提供结构化基础。
  • 数据格式:

    xlsx

  • 数据更新频率:

    其他

  • 数据量:

    1097

样例数据
因字数超过,故样例数据见数据样例附件 附件下载
数据结构样例
数据库表名:税务大模型涉税问题意图识别训练数据;字段名称:原始问题编号、原始涉税问题文本、问题来源渠道、去噪修正后文本、税务专业分词结果、★提取主体类型、★提取税种类型、★提取业务场景、★提取核心数值、提取地域信息、提取时间信息、★一级意图分类、★二级意图分类、★意图分类置信度(%)、★标准化问题文本、质量校验标记、人工复核备注、算法加工版本、算法加工时间、训练数据标注状态;
事务信息
  • 2026-04-17

    数据知识产权登记完成