数据集成与治理平台

安捷智数：现代化数据治理平台 2.0

把企业数据接进来 · 管起来 · 算起来 · 用起来

把分散在 ERP、WMS、CRM 等业务系统中的数据统一汇集，做字段标准化、质量校验与敏感分级，构建主题宽表，再封装为带权限控制的 API 供 BI 工具与下游系统调用——整个过程全部在 Web 界面完成，不需要编写底层代码。

申请产品演示查看功能详情

私有化部署，数据不出企业内网单机 Docker，16 核 / 32 GB 起步配置即模型，无需编写底层代码

STEP 1

🔌

数据接入

→

STEP 2

🧹

治理标准

→

STEP 3

⚙️

加工准备

→

STEP 4

🚀

数据开放

6~8

业务部门同时接入

40+

主表同步支撑

亿级

流水表行数支撑

解决问题

企业数据管理的典型挑战

数据散落在多个业务系统，口径不一致，使用门槛高——这是中型企业数据团队面临的普遍困境。

🔀

数据散落多系统，难以整合

ERP、WMS、CRM、电商平台等系统各自独立，同一业务数据分散在不同库，汇总报表需大量人工操作，容易出错且耗时。

→ 统一数据接入，增量自动同步

📏

口径不统一，同一指标多个答案

"销售额"在 ERP、POS、电商平台的定义可能各不相同，导致不同部门汇报数字打架，决策依据不可靠。

→ 标准字段映射，AI 辅助识别口径差异

⚙️

技术门槛高，业务人员难以自助

数据加工依赖工程师手写脚本，业务分析师无法自主提数，需求响应周期长，数据价值难以快速释放。

→ 可视化配置 + AI SQL 辅助，降低使用门槛

设计理念

配置即模型

所有数据同步、清洗、建模、API 服务，都由 Web 界面的配置自动生成与调度。平台将底层增量采集引擎、声明式 SQL 转换引擎、全链路任务编排引擎的复杂性完全封装，IT 人员通过页面配置和 SQL 即可驱动完整的数据管道。

🔌01

接进来

把分散在 ERP、WMS、CRM 等业务系统中的数据，统一汇集到平台。支持数据库直连与 REST API 接入，增量采集，自动生成管道。

🧹02

管起来

对数据做字段标准化、敏感分级、质量校验，确保"干净、合规、可用"。AI 自动推荐映射与规则，人工复核确认后发布。

⚙️03

算起来

通过可视化 SQL 编辑器构建主题宽表与汇总表，供分析与报表使用。AI SQL 助手支持自然语言生成、纠错改写，业务分析师水平即可上手。

🚀04

用起来

将加工好的数据封装成带权限控制的 API，供 BI 工具、业务系统、AI 助手调用。支持字段级授权，BI 工具通过 JDBC 直连即可使用。

整个过程全部在 Web 界面完成，不需要部署额外组件，不需要编写底层代码。平台以单机 Docker Compose 运行，16 核 / 32 GB 内存的服务器即可承载 6~8 个业务部门、25~40 张主表、亿级流水表。

核心功能

四大功能模块，覆盖数据全生命周期

从数据接入到对外开放，每个环节都在同一平台内完成，无需在多个工具之间切换。

🔌

将业务系统的数据汇入数据栈，是所有后续工作的起点

支持新建 / 测试 / 维护数据库与 API 数据源，提交配置后平台自动生成同步管道并交由调度引擎按周期运行，用户全程不接触底层代码。支持 MSSQL、PostgreSQL，以及 REST API（OAuth2、Webhook）。

🗄️

多类型数据源支持

SQL Server、PostgreSQL、MySQL 数据库，以及 REST API（OAuth2、Webhook）接入；Excel/CSV 手动补充维度表

⏱️

增量采集，减少源库压力

基于 update_time 时间游标仅拉取变更数据，对源库只发起只读查询，不锁表；支持 SSH 跳板机安全连接内网数据库

📋

行业预置同步模板

内置金蝶、用友、聚水潭、旺店通、钉钉/企微、淘宝/京东/抖音等主流系统的字段映射模板，减少初始配置工作量

🔍

数据源工作台

可视化浏览源端 Schema、表列表、字段类型；支持查看采样数据，在配置同步前先确认字段内容，减少配置返工

数据接入流程示意

配置数据源连接

填写连接信息，测试连通性

↓

浏览并勾选同步字段

列级裁剪，仅同步必要列

↓

配置主键、游标、分区

设定增量策略与调度周期

↓

自动生成管道并调度

后续自动增量同步，日志可查

AI 原生

11 项 AI 能力，贯穿数据管道全环节

AI 能力深入数据管道各阶段，非外挂式对话框。AI 引擎实时读取数据库结构元数据，使生成的 SQL 可直接执行，无需人工二次修改。

接入阶段

🔍

表结构扫描与识别

自动识别字段类型、主键、索引，语义理解标注字段业务含义

接入阶段

⏱️

增量字段智能识别

结合表结构与数据采样，自动推荐增量字段和同步策略

接入阶段

📋

行业模板自动匹配

根据表名与字段集语义，自动匹配最相近的行业预置模板

治理阶段

🗺️

标准字段映射推荐

结合行业术语知识库，输出标准英文命名与中文别名，并标注口径差异

治理阶段

✅

质量规则推荐

基于字段数据分布统计，自动推荐规则类型（非空/唯一/范围/正则等）与阈值

治理阶段

🔒

敏感字段识别

字段名语义 + 数据采样正则模式双重验证，输出敏感级别与置信度

加工阶段

💬

自然语言转 SQL

结合实际表结构生成可执行 SQL，适配列式计算引擎方言，减少人工调试

加工阶段

⌨️

编辑器智能补全

编辑器内实时灰字补全，支持表名、列名、SQL 关键字、函数名（类 IDE Copilot 体验）

加工阶段

🔧

SQL 错误诊断修复

执行报错后自动分析错误信息、SQL 文本与表结构，生成修复代码并以 Diff 视图展示

服务阶段

📄

API 文档自动生成

基于表结构与字段注释，自动生成符合 OpenAPI 3.0 规范的 API 文档

服务阶段

🚨

异常调用行为监控

统计基线检测结合语义研判，发现短时高频请求或非常规访问行为自动告警

🛡️

AI 模型部署方式灵活可选

支持两种模式：① 云端 API 模式——仅上传元数据和 SQL，不上传任何业务数据；② 私有化大模型模式——完全本地化运行，数据不出内网。客户可根据合规要求自行选择。

数据架构

三层数据架构，原始保留与高性能查询并重

ODS 贴源层保留全量原始数据，DW 标准层完成清洗去重，DM 应用层支撑 BI 消费，三层职责清晰，分区与索引策略经过专项优化。

ODS 贴源层

原材料仓 — 完整保留源端数据

以追加只写方式写入私有化分布式对象存储（S3 兼容），采用开放归档格式。历史版本可按存储策略长期保留，支持按任意时间点回溯，用于数据审计与问题溯源。

Append-only开放归档格式Time Travel 回溯按天分区

DW 标准层

半成品仓 — 标准化与质量校验

写入列式存储主键合并表，同一主键自动保留最新版本，实现无额外代码的去重合并；同时完成字段命名标准化和类型统一，按业务域划分（采购域、销售域等）。

主键自动去重字段标准化业务域划分按天分区

DM 应用层

成品仓 — BI 与 API 直接消费

列式存储本地物理表，配合向量化并行计算引擎支撑大数据量聚合分析查询；含主题宽表（业务逻辑加工）和聚合指标表（面向 BI 消费）两类物理表。

列式存储前缀排序索引Bitmap 位图索引物化视图预聚合

数据源支持

覆盖主流业务系统与数据库

支持 SQL 数据库直连、REST API 接入，内置多个行业主流系统的同步模板。

🗄️关系型数据库

SQL Server / PostgreSQL / MySQL

基于 update_time 游标增量采集，支持 SSH Tunnel 跳板机与 SSL 加密连接，Schema 自动推断

🌐REST API

SaaS 平台 OpenAPI 接入

支持 OAuth2 授权码、Webhook 推送等接入方式，适用于 CRM、ERP、WMS 等云端系统数据回传

📦ERP 系统

金蝶 / 用友 / 畅捷通

内置销售订单、采购、库存、财务、往来账款等模块的字段映射模板，减少初始配置工作量

🛒电商 & 零售

聚水潭 / 旺店通 / 淘宝 / 京东 / 抖音

覆盖多仓库存、电商订单、采购、门店零售、进销存、收银流水等核心业务数据

💬协作平台

钉钉 / 企业微信 / 飞书

支持 OA 审批、SCRM 数据、运营表单等数据接入，覆盖企业内部协作系统的业务数据

📊文件类

Excel / CSV 手动补充

适用于维度表补充数据，上传后以全量覆盖方式写入，与其他数据源无缝关联

安全架构

多层次安全控制，应用层与数据库层双重生效

即使通过 BI 工具或 SQL 客户端直连数据库，权限控制与数据脱敏依然有效，保障数据访问全链路的合规性。

🏠

全本地私有化部署

所有数据存储在企业内网服务器，不传输至外部网络。支持国产 Linux 发行版，满足数据不出内网的合规要求。

👥

三级权限体系

基于角色的菜单权限、数据表权限、字段级数据权限三级控制；虚拟账号机制杜绝共享管理员账号，每个用户独立授权范围。

🔒

列级动态脱敏

敏感字段分 L1～L4 四个安全级别；脱敏规则通过数据库视图与行级安全策略在引擎层强制执行，BI 直连也无法绕过。

🔑

加密传输与存储

数据库连接凭据 AES-256 加密存储；Web 端支持 HTTPS；数据库连接支持 SSL/TLS；JWT 令牌鉴权，支持配置过期时间。

📋

全链路操作审计

记录操作人、时间戳、操作类型（查询/导出/配置变更）、执行 SQL 与涉及表名；AI 检测非工作时间访问与异常数据量导出，自动告警。

🤝

AI 数据安全保障

使用云端 AI API 时仅上传元数据和 SQL 文本，不上传任何业务数据；也可对接企业自建的私有化大模型，完全本地运行。

适用场景

为不同角色提供针对性的工作台

平台设计兼顾 IT 运维、数据分析与业务运营三类用户的不同诉求。

👨‍💻

IT 负责人 / 数据工程师

✓通过 Web 配置替代手写脚本，减少运维工作量

✓统一管理多个数据源的连接、权限与调度

✓血缘分析定位数据问题，监控面板掌握管道健康状态

✓dev/prod 环境隔离，配置变更发布流程可控

📊

数据分析师

✓AI SQL 助手辅助建模，降低 SQL 编写门槛

✓统一数据目录，快速了解可用数据资产

✓字段血缘追溯，核实指标口径来源与计算逻辑

✓即席查询与 CSV 导出，支持临时分析需求

🎯

业务运营总监 / 管理人员

✓通过数据开放模块获取统一口径的 BI 数据，减少"数据打架"现象

✓按需申请数据权限，字段级授权保障数据安全

✓API Key 对接下游系统，业务数据流转自动化

✓审计日志追溯数据查阅记录，满足内控合规要求

部署说明

单机 Docker Compose 部署，硬件要求清晰

全部组件以容器形式运行，通过 Docker Compose 一键编排启动，支持 dev/prod 双环境隔离，适合在企业内网服务器上私有化部署。

硬件配置参考

CPU最低 8 核 / 推荐 16 核

列式向量化并行计算，核数越多并发查询能力越强

内存最低 32 GB / 推荐 64 GB

计算引擎节点建议独占 24 GB 以上

存储最低 500 GB SSD / 推荐 1 TB+

归档层数据 + 列式存储本地表 + 系统日志

操作系统CentOS 7+ / Ubuntu 20.04+

支持各类国产 Linux 发行版

📊 参考：40 张表 / 日增 10 万行 → 推荐 64 GB 内存、1 TB 存储

平台服务组件

Web 管理界面用户日常操作入口:5173

Web 管理 APIREST API 服务:8000

调度引擎 UI任务运行监控:3000

MPP 查询引擎数据存储与查询（MySQL 协议）:9030

对象存储原始数据文件（S3 兼容）:9000

元数据服务Iceberg 表元数据管理:8181

辅助能力

贯穿全链路的辅助工具

除四个核心功能模块外，平台还提供覆盖日常运营全场景的辅助能力。

🔗

端到端血缘分析

可视化 DAG 展示从源库到 API 的完整数据链路；字段级血缘追溯，30 秒内定位问题来源；上游变更自动扫描下游影响范围并告警

📡

运行监控与故障处理

Pipeline 运行列表展示任务状态、耗时与失败原因；支持一键重跑单个失败任务或整条链路；可按时间范围补跑历史数据（Backfill）

📂

数据目录与即席查询

统一浏览 ODS/DW/DM 三层全部数据表；字段统计画像（行数、空值率、唯一值、Top N）；内嵌 SQL 编辑器支持即席查询与 CSV 导出

🌍

dev / prod 双环境隔离

dev 环境验证通过后，可在「运维 → 发布」界面一键同步配置到 prod；环境隔离通过 SMDS_ENV 变量切换，互不影响

🔔

多渠道告警通知

任务失败、质量规则不通过、异常调用行为等事件支持通过邮件、企业微信、钉钉、飞书 Webhook 推送通知

👤

用户与角色管理

JWT 登录，RBAC 角色权限控制；操作审计日志自动记录所有配置变更；系统管理支持 AI 模型配置、审计日志查阅

使用示例

从 ERP 销售订单到日汇总 API，全链路演示

以"把 ERP 销售订单同步进来，做合规治理后，对外提供日汇总 API"为例，展示平台完整使用链路。

步骤 1

接入 ERP 销售订单

进入「数据接入」→ 新建数据源 → 选择 MSSQL → 填写连接信息 → 测试连接。

浏览到 dbo.SalesOrder 表，勾选所需字段，配置主键 id、增量游标 update_time、分区字段 create_time，对 phone 列勾选手机号脱敏。

保存后平台自动生成同步管道，在「同步运行日志」中确认首次同步成功。

底层技术支撑（PDF）

增量采集引擎以 update_time 字段为游标，以追加方式写入 ODS 贴源层（开放归档格式，Append-only），完整保留原始数据，支持 Time Travel 历史回溯

步骤 2

治理与标准化

在「治理与标准」的资产清单找到 SalesOrder。

接受 AI 推荐，将 customer_id 映射到企业标准字段 std_customer_id；系统自动识别 phone 为 L3 敏感级别，确认后生效；为 id 配置 unique + not_null 规则，为 amount 配置 >=0 规则。

通过「发布检查」后，平台自动完成去重和质量校验。

底层技术支撑（PDF）

声明式 SQL 转换引擎自动生成字段重命名 + 类型转换 + 空值处理的清洗逻辑，写入 DW 标准层列式存储主键合并表，按主键自动去重，无需额外 SQL

步骤 3

加工销售日汇总

进入「加工与准备」，新建模型 sales_daily，选择"销售日汇总"模板，编辑器自动填充骨架 SQL：

SELECT
  date_trunc('day', create_time) AS stat_date,
  std_customer_id,
  count(*)    AS order_count,
  sum(amount) AS total_amount
FROM sales_order
GROUP BY 1, 2

配置表类型为"聚合表"、分区按月、刷新策略为每日 02:00，保存即自动加入调度。

底层技术支撑（PDF）

模型结果写入 DM 应用层列式存储物理表，列式存储 + 向量化并行执行引擎支撑大数据量聚合分析；高频查询可命中预聚合物化视图，减少全量扫描

步骤 4

对外开放为 API

进入「数据开放」，新建数据应用 sales-daily-api，绑定模型 sales_daily，配置请求参数 stat_date / customer_id。

在「字段授权」里将 total_amount 仅授权给"财务"角色。发布后获得访问地址与 API Key，BI 工具或下游系统即可调用。在「调用日志」中可查看每次调用详情。

底层技术支撑（PDF）

API 鉴权、限流、字段过滤、审计在网关层统一处理；字段脱敏规则通过数据库视图 + 行级安全策略（RLS）在引擎层强制执行，BI 直连也无法绕过

常见问题

使用前常见的几个问题

使用平台需要懂 SQL 吗？+

数据接入、治理与标准、数据开放三个模块完全图形化，不需要写 SQL。加工与准备模块需要简单 SQL，但平台提供业务主题模板与 AI SQL 助手（支持自然语言生成、纠错改写），业务分析师水平即可使用。

同步是全量还是增量？+

默认增量同步：基于 update_time 游标，每次只拉取新增/更新行，对源库只读不锁表。首次运行根据配置的"起始时间"做一次初始装载；支持手动按时间窗口回填历史数据。

数据多久更新一次？+

在「加工与准备」的"刷新策略"中按模型独立配置，支持每日指定时间、每小时、每 15 分钟等粒度（Cron 表达式）。同步任务与加工任务按各自周期运行，互不阻塞。

能对外提供数据 API 吗？+

在「数据开放」中将任意加工模型一键发布为 REST API。支持参数化查询（分页、过滤、排序）、字段级授权、API Key 鉴权、限流与完整调用日志。

数据出问题怎么排查？+

「运行监控」查看任务状态与标准化错误信息；「血缘分析」从问题表一图上溯到源头；「数据管理」用即席查询直接核对样本数据；「审计日志」查看是谁在什么时候改了什么配置。

AI 功能会把企业数据上传到云端吗？+

使用云端 AI API 时，仅上传元数据（表名、字段名、注释）和 SQL 文本，不上传任何业务数据。也支持对接企业自建的私有化大模型，AI 推理完全在内网运行，数据不出企业。

让数据真正流动起来，为业务提供支撑

我们可以安排一对一功能演示，结合您的实际业务系统和数据场景进行说明。平台同时对外开放完整 REST API，支持二次集成与自动化流程接入。

申请产品演示发送咨询邮件