# 数据入湖清单 vs HSAP 实现差距 对照 [DATA_LAKE_CHECKLIST.md](DATA_LAKE_CHECKLIST.md) 阶段 A~E 与当前 `as_platform` 能力。 | 阶段 | 清单要求 | HSAP 现状 | 差距 | |------|----------|-----------|------| | **A 上传接入** | zip/目录上传、进度、candidate_id | `POST /api/v1/data/upload/file`、`DatasetCandidate` 表;**analyzed 后可 `POST .../promote-inbox`** | 无统一 `lake/staging/` 路径约定;进度条依赖前端 upload | | **A** | staging 区隔离 | 候选写入 DB + 磁盘路径 | 未强制 `lake/staging///` 目录规范 | | **B 自动分析** | 上传后异步 quality worker | `inspect-upload`、部分 catalog 刷新 | 无独立 QualityWorker Job;DMS/Lane 报告未统一落 `quality.json` | | **B** | DMS/Lane 指标 | Catalog、`catalogDms`、validate 脚本 | Catalog 已展示采样指标(条/饼/竖柱/雷达/划分柱/散点/密度);**非**上传触发全自动 | | **C 审核流** | 自动提交审核单 | `approvals`、`submit` API | 已有;与送标 register 联动 | | **C** | 通过/驳回规范 | `approve`/`reject` | 已有 | | **D 版本入湖** | 审核后晋级 curated | `ingest_incremental`、`register_batch` stage | **主路径在 ml.py/as.py**,非 candidate→lake 闸门 | | **D** | catalog 索引更新 | `GET /catalog` refresh | 已有 | | **E 运维安全** | 失败可读、重试 | Job 队列、approval 备注 | 部分;上传重试靠前端 | ## 已有可复用组件 - 数据候选:`platform/as_platform/db/models.py` → `DatasetCandidate` - 上传 API:`server.py` → `upload/file`、`inspect-upload` - 审核:`audit/queue.py`、`/api/v1/approvals/*` - 入湖 CLI:`as.py build` / `add` + `ingest_incremental.py` ## 建议下一里程碑(未在本汇总 plan 全量实现) 1. 统一 staging 根目录与环境变量 `AS_LAKE_STAGING_ROOT` 2. 上传完成 → 入队 `quality_analyze` Job → 写 `quality.json` 3. 审核通过后调用现有 `ingest_incremental` 并更新 `batch.meta` stage ## 验收脚本 ```bash bash HSAP/scripts/smoke_manifest_alignment.sh bash HSAP/scripts/smoke_platform_api.sh curl -sS -H "Authorization: Bearer $TOKEN" http://127.0.0.1:8787/api/v1/pending/gates ```