跳转到主要内容

TL;DR

本页为文档其余部分建立共同语言。它解释了AI如何使用样本标签验证Codatta如何将它们建模为原子贡献,它们如何捆绑成数据资产(最小商业单位),以及为什么我们使用区块链使资产化版税可编程

人工智能(AI)的数据基础知识

样本(数学符号:X):模型将学习的原始观察(图像、音频片段、文本跨度、时间序列窗口、多传感器帧等)。 标签(数学符号:Yy):样本(或样本组)的结构化解释:类、边界框、分割掩码、跨度、评分、关系、随时间的事件等。 验证:对样本或标签的质量判断或证据检查。可以是共识投票、评分标准、重新标签或自动检查加上人工裁决。 为什么质量对模型很重要
  • 信噪比 – 误标或低信息数据降低有效批次大小并减慢收敛。
  • 偏见和泄漏 – 不一致的模式、快捷特征或标签泄漏损害泛化和公平性。
  • 异构任务 – 多任务/思维链模型依赖清晰、一致的指令可追溯的来源来调试和改进。
要点:更好的样本 + 更清晰的标签 + 可验证的验证 = 更有用的梯度步骤生产中更少的意外

Codatta 的数据模型

Atomic → Data Asset → Dataset 图 1. 样本、标签和验证聚合成一个数据资产;资产然后被选择到数据集中。
为什么重要数据资产所有权和版税的单位以及大多数购买者实际消费的许可单位
A. 原子贡献(AC)
人类或代理产生的一个工作单位:
  • sample – 观察
  • label – 解释
  • validation – 质量/证据决策
每个 AC 被分配一个贡献指纹(CF)
  • 一个防篡改标识符(哈希 + 元数据 + 父链接),证明谁在何时对哪个有效负载做了什么
  • CF 使贡献可发现、去重和可审计
B. 数据资产(DA)
一个复合最小商业单位,通过聚合属于一起的 AC 创建(例如,一个图像 + 其接受的标签 + 验证)。所有权和许可在资产级别执行,因为这是 AI 团队实际使用的。
C. 数据集(视图/集合)
为特定模型、垂直领域或评估精选的数据资产选择—由保存的查询或清单定义。数据集继承其包含资产的所有所有权、许可和谱系

典型的现实世界场景

下图是概念性的,专注于关系和流程;字段名称和格式可能在协议最终确定时演变。

场景 A:一个样本,多个标签集

One sample → two assets via different label bundles 图 2. 一个样本(X0)被task01task02标记。捆绑X0 + {Y0, Y1}形成资产-A(垂直 AI “a”),而捆绑X0 + {Y2}形成资产-B(垂直 AI “b”)。 为什么重要:同一个原始样本可以通过捆绑不同的标签不同的产品提供动力—每个都有自己的版税和许可条款。

场景 B:跨样本复合

Cross-sample composite 图 3. 两个样本(X0, X1)组合成一个新任务(task03)的复合资产。下游标签(Y3)注释复合,而非单个样本。 为什么重要:许多任务(对话对、多轮上下文、视频/动作段)需要跨样本的关系。Codatta 支持复合资产并保持派生链接以进行适当的归属和支付。

场景 C:标签上标签(元标签)

Label-on-label 图 4. 下游标签(Y4)针对上游标签(Y0),它本身注释 X0。版税传播到元标签者原始标签者(以及到原始样本,根据策略)。 为什么重要:您可以注释解释,而不仅仅是原始数据:标准、解释、信心判断或评估者注释—都带有谱系和收入继承。

资产化和区块链技术

为什么资产化?
传统标签生成难以跟踪、共享或评估的文件。 资产化将工作转化为具有来源和可编程权利的链上对象
  • 通过贡献指纹的来源(哈希 + 元数据 + 父)→谁在何时对哪个有效负载做了什么
  • 通过数据资产上的分割代币的所有权(不仅文件),因此多个贡献者/验证者可以参与收入。
  • 许可和计量与策略限制的访问(公共与受限),以及驱动版税路由的使用收据(读取/训练/推断)。
  • 派生,带有继承规则(子资产指向父;版税按策略传播)。
  • 隐私设计:混合存储 + 安全计算(如 TEE),因此模型可以使用数据而不暴露原始内容。
区块链添加什么
  • 信任最小化:贡献、所有权和使用事件的公共、仅追加记录。
  • 可组合性:资产可以查询、捆绑和跨应用程序重新许可,同时保留谱系和支付
  • 激励:贡献者和验证者在资产使用时获得报酬—将质量与长期价值对齐。