跳转到主要内容Codatta 提供一套透明、不可篡改的方式,来追踪数据从原始贡献到链上资产、再到数据集组装和经济分配的全过程。
数据谱系 (Data Lineage) 页面,把这一流程拆解为四个阶段,方便贡献者、验证者、买家和治理参与者理解和审计。
谱系可视化
下图(使用英文节点)展示了 Codatta 协议中数据生命周期的四个阶段。
生命周期阶段
1. 资产化 (Assetification)
原始贡献在这一阶段被转化为可信、不可篡改的链上资产:
- 提交 (Submission): 贡献者提交样本、标签等原子贡献,并生成对应的贡献指纹 (CF)。
- 筛选与验证 (Screening & Validation): Codatta 运行自动预扫描检查,包括基于启发式的格式、策略合规与去重检查,以及 AI 代理的语义检查。必要时触发人工审核。在此步骤失败的提交会被拒绝,不会产生 CF。
- CF 创建与锚定 (CF Creation & Anchoring): 对于每个被接受的原子贡献,系统构建一个 CF 提交(规范化内容哈希、附加证据与信号、绑定贡献者身份),然后在所选网络上将 CF 的指纹锚定到链上(单条 CF 或批量 Merkle 根)。
相关文档:
2. 数据组装 (Data Assembling)
在资产化基础上,已经锚定的资产会被策展、组合成可用的数据集版本:
- 组合 (Composition): 多个原子资产与资产包被合并进一个数据集装配流程。
- 版本化 (Versioning): 对输入或规则的每次修改都会生成新的数据集版本,方便回滚与对比。
相关文档:
3. 发布与采纳 (Publication & Adoption)
完成组装与锚定后,数据集被发布并进入实际使用场景:
- 发布 (Publication): 数据集被发布到 HuggingFace、去中心化存储或其他平台。
- 采纳 (Adoption): 模型和应用将特定版本的数据集接入训练、评估或推理,形成“有效使用”记录。
相关文档:
4. 分润 (Payouts)
当采纳行为产生收入(许可费、API 费用等)时,资金会沿着所有权图回流到权利方:
- 价值流动 (Value Flow): 每个付费事件都被绑定到具体的数据集版本与使用上下文。
- 权利分配 (Distribution): 协议按照事件时间点的所有权快照,把净收入分配给贡献者、验证者、支持者和协议金库。
- 可转让所有权 (Backers): 若所有权被二级交易给新的持有者,系统会自动把未来分润支付给当前持有人。
相关文档:
参考 (References)