广东省数据知识产权存证登记平台
登记信息
暗物智能多模态问答对话数据 已登记
  • 数据登记申请号:

    SZ2024120001600.7

  • 关键词:

    多模态对话;智慧教育

  • 登记时间:

    2024-05-06

  • 登记主体:

    暗物智能科技(广州)有限公司

  • 平台证书编号:

    20240444000001600

  • 服务机构:

    暂无

  • 法院编号:

    广州互联网法院 - 768e96ca32637deb82917f4ca615acc2a0ccad292b39cbb85531c571a5c02124-749fc1a4;legalxchain

区块链信息
  • 上链时间:

    2024-04-16

  • 所属区块链:

    司法联盟链·广东省知识产权保护中心

  • 证据指纹:

    47844046acb6adc2e7a1f698b55001254c0d03f4238c1d064de046469a8770df74d468c707e5c765e4aa14f4ccbffd797d5c8a37b9422cb8bec9cc314e49ad13

  • 区块链存证证书编号:

    LXM-GDIPI-23202404163949154285

数据信息
数据简介
多模态问答对话数据集是为了支持国家自然科学基金项目“多模态环境下的多媒体对话分析与理解”而创建的。该数据集旨在提供丰富的多模态对话内容,以促进智慧教育对话系统的研究与发展。数据集中的对话内容涵盖了语音、文本、图片和视频等多种模态,每一对话单元均以JSON格式独立存储,确保了数据的高效处理与应用。
  • 数据来源:

    自行产生

  • 数据所属行业分类:

    I65 软件和信息技术服务业

数据处理规则说明
1.使用Python编程语言和相关数据处理库(Pandas、NumPy)进行数据清洗和预处理。 2.采用自然语言处理(NLP)工具(spaCy、NLTK)进行文本数据的分词、词性标注和命名实体识别。 3.对于图像数据,使用深度学习框架(TensorFlow、PyTorch)和图像处理库(OpenCV)进行图像清洗和特征提取。 4.对音频和视频数据,采用音频处理工具(Librosa)和视频处理库(FFmpeg)进行格式转换、降噪和关键帧提取。 二、数据处理模型: 1.利用预训练的深度学习模型(BERT、ResNet)对文本、图像和视频数据进行特征表示学习。 2.对于多模态数据融合,采用Transformer架构和注意力机制模型来捕捉不同模态间的关联性。 三、适用的国家标准: 1.遵循《信息安全技术 个人信息安全规范》(GB/T 35273-2020)等相关标准,确保数据的合法合规使用。 2.对于数据存储和传输,遵循《信息安全技术 数据加密基本要求》(GB/T 32905-2016)等相关标准。 四、匿名化与脱敏规则: 1.对于涉及个人信息的数据,采用匿名化技术来保护个人隐私
应用场景描述
本数据集《多模态问答对话数据集》旨在支持和提升多模态环境下的多媒体对话分析与理解能力。数据集涵盖了丰富的文本、图像、音频和视频等多模态对话内容,适用于多种条件和范围,特别是在智慧教育、人机交互、跨媒体信息检索和自然语言处理等领域。 通过本数据集,研究者和开发者可以构建和训练先进的机器学习模型,以实现对复杂对话场景的深入理解和分析。数据集中的多模态信息可以用于开发智能对话系统,这些系统能够根据用户的文本、语音、图像或视频输入提供准确和相关的回答。例如,在智慧教育项目《多模态环境下的多媒体对话分析与理解》中,该数据集可以应用于创建智能教育助手,这些助手能够理解学生的问题并提供个性化的学习资源和互动式教学体验。 此外,本数据集还可以用于改善现有对话系统的多模态输入处理能力,提高用户与系统之间的交互质量。通过分析不同模态之间的关联和互补信息,系统可以更好地理解用户的需求,从而提供更加丰富和准确的回答。这不仅可以增强用户体验,还可以推动多模态交互技术的发展,为未来的人工智能应用奠定坚实的数据基础。
  • 数据格式:

    json

  • 数据更新频率:

    其他

  • 数据量:

    28000

样例数据
一、文本对话样例: { "q": "为什么要学习外语?", "a": "学习外语可以拓宽视野,增加跨文化交流的机会,提高就业竞争力。", "type": "text:text" } 二、音频与图像对话样例: { "q": "4573_图4_q_audio_22b00eba52c511eeaa0c020018b407f0.wav", "a": "4573_图4_a_image_f878c0d70b05d57fb7e6e943ef37a0d9.png", "type": "audio:image" } 三、音频与视频对话样例: { "q": "4963_6_q_audio_c4c7283c52e311eeb832020018b407f0.wav", "a": "4963_图6_a_video_cbe4bce052e311eea587020018b407f0.mp4", "type": "audio:video" } 附件下载
数据结构样例
数据集名称:多模态问答对话数据集 1.数据存储格式:JSON (JavaScript Object Notation) 文件,用于存储和传输数据集内容。 2.数据结构信息 3.字段名及数据格式 4.业务描述信息 5.数据量和数据种类 6.数据种类
数据状态
  • 2024-07-30

    保险备案

    保险机构:中国人保财险广州南沙支公司; 保险起止时间:2024年07月30日至2025年07月29日
  • 2024-05-06

    数据知识产权登记完成