广东省数据知识产权存证登记平台
登记信息
暗物智能好坏字对数据集 已登记
  • 数据登记申请号:

    SZ2024120005964.2

  • 关键词:

    教育;文字识别;轨迹识别

  • 登记时间:

    2024-10-13

  • 登记主体:

    暗物智能科技(广州)有限公司

  • 平台证书编号:

    20240944000005964

  • 服务机构:

    暂无

  • 法院编号:

    广州互联网法院 - e0ec05032ee2c026f5e8767e42927fe1289c63bb2bd0bbf003d864f1f85e33e8-749fc1a4;legalxchain

区块链信息
  • 上链时间:

    2024-09-18

  • 所属区块链:

    司法联盟链·广东省知识产权保护中心

  • 证据指纹:

    0d5ac3539d58e6fe7235f4176db90c1a903ead7ffb209823c55eeed6fc651257ce12c13a8a44847d1f9adde50521d6b76e463f8114b1e4d8f701ccd0b59fddc6

  • 区块链存证证书编号:

    LXM-GDIPI-23202409184204258392

数据信息
数据简介
这个数据集是一组用JSON文件格式存储的汉字书写数据,它详细记录了不同汉字的不同书写方式,每种书写方式通过“good”和“bad”的命名来区分书写质量。每个JSON文件包含了该汉字每个笔画的详细轨迹、书写速度以及书写力度等信息,为研究和分析汉字书写提供了丰富的动态特征数据。
  • 数据来源:

    自行产生

  • 数据所属行业分类:

    I65 软件和信息技术服务业

数据处理规则说明
这个数据集的加工方法从图像预处理开始,首先对采集到的字帖图像进行灰度化和二值化处理,以增强字符边缘和减少背景干扰。接着,利用图像分割技术将单个字符从背景中分离出来,并通过OCR技术对分割后的字符进行识别,提取出字符的文本信息。随后,结合人工审核与机器学习辅助,对字符的书写质量进行评估和标注。专家根据书法标准,将字符分为“good”和“bad”两类,并据此更新JSON文件,确保文件名以“good”或“bad”结尾,同时文件内容包含字符的位置信息和书写质量标注。在标注过程中,可能采用数据增强技术,如对字符图像进行旋转、缩放等操作,以提高模型的泛化能力。最后,对标注结果进行验证和整理,确保每个JSON文件准确反映了对应的字符书写质量,从而形成了一个结构化、高质量的标注数据集,供后续研究和模型训练使用。
应用场景描述
这个数据集的应用场景主要包括书法教育、人工智能研究和产品设计等,可以用于开发智能书法教学系统,帮助学生通过分析笔画轨迹、速度和力度来提高书写技能;训练机器学习模型以实现书法作品的自动评价和风格分类;
  • 数据格式:

    json

  • 数据更新频率:

    其他

  • 数据量:

    9992

样例数据
{"dot_image_list": [{"valid_range": [1241, 1959, 1414, 2132], "dot_strokes": [{"start_ts": 1645584715276, "color": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "relative_time": [0, 1, 2, 4, 5, 6, 7, 8, 9, 11], "end_ts": 1645584715287, "x": [1293, 1293, 1294, 1294, 1295, 1296, 1296, 1294, 1290, 1286], "y": [2060, 2061, 2061, 2062, 2063, 2065, 2070, 2076, 2087, 2095], "angle": [141, 141, 141, 140, 143, 135, 139, 138, 143, 139], "force": [55, 67, 85, 83, 92, 69, 27, 1, 1, 0]}, {"start_ts": 1645584715481, "color
数据结构样例
本数据集收集了不同字各种写法的笔画轨迹数据,其中每一个json代表一个字的一种写法,并打上’good’与’bad’的标签写入json文件的文件名中 在单个json文件中,笔画的每一个属性信息被存储在一个代表该笔画的字典中,所有的笔画字典组成了一个列表,以值的形式存储在键为Dot_img_list的字典中 每一个笔画包含以下属性: 其中valid_rang表示这个字所在矩形的顶点坐标 Dot_strokes表示这个字每一个的笔画的描边信息 包括:start_stroke笔画开始时间,color笔画的颜色 relative_time表示笔画被识别到的活跃时间,end_ts表示这个笔画的技术时间, x,y代表笔迹路径上的一些坐标点 angle表示所记录下的书写的角度, force表示所记录下的书写的力度
数据状态
  • 2024-12-27

    质押备案

    出质人:暗物智能科技(广州)有限公司; 质权人:中国建设银行股份有限公司广东自贸试验区分行; 合同签订时间:2024年12月27日
  • 2024-10-13

    数据知识产权登记完成