数据集成与治理平台

安捷智数:现代化数据治理平台 2.0

把企业数据接进来 · 管起来 · 算起来 · 用起来

把分散在 ERP、WMS、CRM 等业务系统中的数据统一汇集,做字段标准化、质量校验与敏感分级,构建主题宽表,再封装为带权限控制的 API 供 BI 工具与下游系统调用——整个过程全部在 Web 界面完成,不需要编写底层代码。

私有化部署,数据不出企业内网单机 Docker,16 核 / 32 GB 起步配置即模型,无需编写底层代码
解决问题

企业数据管理的典型挑战

数据散落在多个业务系统,口径不一致,使用门槛高——这是中型企业数据团队面临的普遍困境。

🔀

数据散落多系统,难以整合

ERP、WMS、CRM、电商平台等系统各自独立,同一业务数据分散在不同库,汇总报表需大量人工操作,容易出错且耗时。

→ 统一数据接入,增量自动同步
📏

口径不统一,同一指标多个答案

"销售额"在 ERP、POS、电商平台的定义可能各不相同,导致不同部门汇报数字打架,决策依据不可靠。

→ 标准字段映射,AI 辅助识别口径差异
⚙️

技术门槛高,业务人员难以自助

数据加工依赖工程师手写脚本,业务分析师无法自主提数,需求响应周期长,数据价值难以快速释放。

→ 可视化配置 + AI SQL 辅助,降低使用门槛
设计理念

配置即模型

所有数据同步、清洗、建模、API 服务,都由 Web 界面的配置自动生成与调度。平台将底层增量采集引擎、声明式 SQL 转换引擎、全链路任务编排引擎的复杂性完全封装,IT 人员通过页面配置和 SQL 即可驱动完整的数据管道。

🔌01

接进来

把分散在 ERP、WMS、CRM 等业务系统中的数据,统一汇集到平台。支持数据库直连与 REST API 接入,增量采集,自动生成管道。

🧹02

管起来

对数据做字段标准化、敏感分级、质量校验,确保"干净、合规、可用"。AI 自动推荐映射与规则,人工复核确认后发布。

⚙️03

算起来

通过可视化 SQL 编辑器构建主题宽表与汇总表,供分析与报表使用。AI SQL 助手支持自然语言生成、纠错改写,业务分析师水平即可上手。

🚀04

用起来

将加工好的数据封装成带权限控制的 API,供 BI 工具、业务系统、AI 助手调用。支持字段级授权,BI 工具通过 JDBC 直连即可使用。

整个过程全部在 Web 界面完成,不需要部署额外组件,不需要编写底层代码。平台以单机 Docker Compose 运行,16 核 / 32 GB 内存的服务器即可承载 6~8 个业务部门、25~40 张主表、亿级流水表。
核心功能

四大功能模块,覆盖数据全生命周期

从数据接入到对外开放,每个环节都在同一平台内完成,无需在多个工具之间切换。

🔌

将业务系统的数据汇入数据栈,是所有后续工作的起点

支持新建 / 测试 / 维护数据库与 API 数据源,提交配置后平台自动生成同步管道并交由调度引擎按周期运行,用户全程不接触底层代码。支持 MSSQL、PostgreSQL,以及 REST API(OAuth2、Webhook)。

🗄️

多类型数据源支持

SQL Server、PostgreSQL、MySQL 数据库,以及 REST API(OAuth2、Webhook)接入;Excel/CSV 手动补充维度表

⏱️

增量采集,减少源库压力

基于 update_time 时间游标仅拉取变更数据,对源库只发起只读查询,不锁表;支持 SSH 跳板机安全连接内网数据库

📋

行业预置同步模板

内置金蝶、用友、聚水潭、旺店通、钉钉/企微、淘宝/京东/抖音等主流系统的字段映射模板,减少初始配置工作量

🔍

数据源工作台

可视化浏览源端 Schema、表列表、字段类型;支持查看采样数据,在配置同步前先确认字段内容,减少配置返工

数据接入流程示意
配置数据源连接
填写连接信息,测试连通性
浏览并勾选同步字段
列级裁剪,仅同步必要列
配置主键、游标、分区
设定增量策略与调度周期
自动生成管道并调度
后续自动增量同步,日志可查
AI 原生

11 项 AI 能力,贯穿数据管道全环节

AI 能力深入数据管道各阶段,非外挂式对话框。AI 引擎实时读取数据库结构元数据,使生成的 SQL 可直接执行,无需人工二次修改。

接入阶段
🔍

表结构扫描与识别

自动识别字段类型、主键、索引,语义理解标注字段业务含义

接入阶段
⏱️

增量字段智能识别

结合表结构与数据采样,自动推荐增量字段和同步策略

接入阶段
📋

行业模板自动匹配

根据表名与字段集语义,自动匹配最相近的行业预置模板

治理阶段
🗺️

标准字段映射推荐

结合行业术语知识库,输出标准英文命名与中文别名,并标注口径差异

治理阶段

质量规则推荐

基于字段数据分布统计,自动推荐规则类型(非空/唯一/范围/正则等)与阈值

治理阶段
🔒

敏感字段识别

字段名语义 + 数据采样正则模式双重验证,输出敏感级别与置信度

加工阶段
💬

自然语言转 SQL

结合实际表结构生成可执行 SQL,适配列式计算引擎方言,减少人工调试

加工阶段
⌨️

编辑器智能补全

编辑器内实时灰字补全,支持表名、列名、SQL 关键字、函数名(类 IDE Copilot 体验)

加工阶段
🔧

SQL 错误诊断修复

执行报错后自动分析错误信息、SQL 文本与表结构,生成修复代码并以 Diff 视图展示

服务阶段
📄

API 文档自动生成

基于表结构与字段注释,自动生成符合 OpenAPI 3.0 规范的 API 文档

服务阶段
🚨

异常调用行为监控

统计基线检测结合语义研判,发现短时高频请求或非常规访问行为自动告警

🛡️

AI 模型部署方式灵活可选

支持两种模式:① 云端 API 模式——仅上传元数据和 SQL,不上传任何业务数据;② 私有化大模型模式——完全本地化运行,数据不出内网。客户可根据合规要求自行选择。

数据架构

三层数据架构,原始保留与高性能查询并重

ODS 贴源层保留全量原始数据,DW 标准层完成清洗去重,DM 应用层支撑 BI 消费,三层职责清晰,分区与索引策略经过专项优化。

ODS 贴源层

原材料仓 — 完整保留源端数据

以追加只写方式写入私有化分布式对象存储(S3 兼容),采用开放归档格式。历史版本可按存储策略长期保留,支持按任意时间点回溯,用于数据审计与问题溯源。

Append-only开放归档格式Time Travel 回溯按天分区
DW 标准层

半成品仓 — 标准化与质量校验

写入列式存储主键合并表,同一主键自动保留最新版本,实现无额外代码的去重合并;同时完成字段命名标准化和类型统一,按业务域划分(采购域、销售域等)。

主键自动去重字段标准化业务域划分按天分区
DM 应用层

成品仓 — BI 与 API 直接消费

列式存储本地物理表,配合向量化并行计算引擎支撑大数据量聚合分析查询;含主题宽表(业务逻辑加工)和聚合指标表(面向 BI 消费)两类物理表。

列式存储前缀排序索引Bitmap 位图索引物化视图预聚合
数据源支持

覆盖主流业务系统与数据库

支持 SQL 数据库直连、REST API 接入,内置多个行业主流系统的同步模板。

🗄️关系型数据库

SQL Server / PostgreSQL / MySQL

基于 update_time 游标增量采集,支持 SSH Tunnel 跳板机与 SSL 加密连接,Schema 自动推断

🌐REST API

SaaS 平台 OpenAPI 接入

支持 OAuth2 授权码、Webhook 推送等接入方式,适用于 CRM、ERP、WMS 等云端系统数据回传

📦ERP 系统

金蝶 / 用友 / 畅捷通

内置销售订单、采购、库存、财务、往来账款等模块的字段映射模板,减少初始配置工作量

🛒电商 & 零售

聚水潭 / 旺店通 / 淘宝 / 京东 / 抖音

覆盖多仓库存、电商订单、采购、门店零售、进销存、收银流水等核心业务数据

💬协作平台

钉钉 / 企业微信 / 飞书

支持 OA 审批、SCRM 数据、运营表单等数据接入,覆盖企业内部协作系统的业务数据

📊文件类

Excel / CSV 手动补充

适用于维度表补充数据,上传后以全量覆盖方式写入,与其他数据源无缝关联

安全架构

多层次安全控制,应用层与数据库层双重生效

即使通过 BI 工具或 SQL 客户端直连数据库,权限控制与数据脱敏依然有效,保障数据访问全链路的合规性。

🏠

全本地私有化部署

所有数据存储在企业内网服务器,不传输至外部网络。支持国产 Linux 发行版,满足数据不出内网的合规要求。

👥

三级权限体系

基于角色的菜单权限、数据表权限、字段级数据权限三级控制;虚拟账号机制杜绝共享管理员账号,每个用户独立授权范围。

🔒

列级动态脱敏

敏感字段分 L1~L4 四个安全级别;脱敏规则通过数据库视图与行级安全策略在引擎层强制执行,BI 直连也无法绕过。

🔑

加密传输与存储

数据库连接凭据 AES-256 加密存储;Web 端支持 HTTPS;数据库连接支持 SSL/TLS;JWT 令牌鉴权,支持配置过期时间。

📋

全链路操作审计

记录操作人、时间戳、操作类型(查询/导出/配置变更)、执行 SQL 与涉及表名;AI 检测非工作时间访问与异常数据量导出,自动告警。

🤝

AI 数据安全保障

使用云端 AI API 时仅上传元数据和 SQL 文本,不上传任何业务数据;也可对接企业自建的私有化大模型,完全本地运行。

适用场景

为不同角色提供针对性的工作台

平台设计兼顾 IT 运维、数据分析与业务运营三类用户的不同诉求。

👨‍💻

IT 负责人 / 数据工程师

通过 Web 配置替代手写脚本,减少运维工作量
统一管理多个数据源的连接、权限与调度
血缘分析定位数据问题,监控面板掌握管道健康状态
dev/prod 环境隔离,配置变更发布流程可控
📊

数据分析师

AI SQL 助手辅助建模,降低 SQL 编写门槛
统一数据目录,快速了解可用数据资产
字段血缘追溯,核实指标口径来源与计算逻辑
即席查询与 CSV 导出,支持临时分析需求
🎯

业务运营总监 / 管理人员

通过数据开放模块获取统一口径的 BI 数据,减少"数据打架"现象
按需申请数据权限,字段级授权保障数据安全
API Key 对接下游系统,业务数据流转自动化
审计日志追溯数据查阅记录,满足内控合规要求
部署说明

单机 Docker Compose 部署,硬件要求清晰

全部组件以容器形式运行,通过 Docker Compose 一键编排启动,支持 dev/prod 双环境隔离,适合在企业内网服务器上私有化部署。

硬件配置参考

CPU最低 8 核 / 推荐 16 核

列式向量化并行计算,核数越多并发查询能力越强

内存最低 32 GB / 推荐 64 GB

计算引擎节点建议独占 24 GB 以上

存储最低 500 GB SSD / 推荐 1 TB+

归档层数据 + 列式存储本地表 + 系统日志

操作系统CentOS 7+ / Ubuntu 20.04+

支持各类国产 Linux 发行版

📊 参考:40 张表 / 日增 10 万行 → 推荐 64 GB 内存、1 TB 存储

平台服务组件

Web 管理界面用户日常操作入口:5173
Web 管理 APIREST API 服务:8000
调度引擎 UI任务运行监控:3000
MPP 查询引擎数据存储与查询(MySQL 协议):9030
对象存储原始数据文件(S3 兼容):9000
元数据服务Iceberg 表元数据管理:8181
辅助能力

贯穿全链路的辅助工具

除四个核心功能模块外,平台还提供覆盖日常运营全场景的辅助能力。

🔗

端到端血缘分析

可视化 DAG 展示从源库到 API 的完整数据链路;字段级血缘追溯,30 秒内定位问题来源;上游变更自动扫描下游影响范围并告警

📡

运行监控与故障处理

Pipeline 运行列表展示任务状态、耗时与失败原因;支持一键重跑单个失败任务或整条链路;可按时间范围补跑历史数据(Backfill)

📂

数据目录与即席查询

统一浏览 ODS/DW/DM 三层全部数据表;字段统计画像(行数、空值率、唯一值、Top N);内嵌 SQL 编辑器支持即席查询与 CSV 导出

🌍

dev / prod 双环境隔离

dev 环境验证通过后,可在「运维 → 发布」界面一键同步配置到 prod;环境隔离通过 SMDS_ENV 变量切换,互不影响

🔔

多渠道告警通知

任务失败、质量规则不通过、异常调用行为等事件支持通过邮件、企业微信、钉钉、飞书 Webhook 推送通知

👤

用户与角色管理

JWT 登录,RBAC 角色权限控制;操作审计日志自动记录所有配置变更;系统管理支持 AI 模型配置、审计日志查阅

使用示例

从 ERP 销售订单到日汇总 API,全链路演示

以"把 ERP 销售订单同步进来,做合规治理后,对外提供日汇总 API"为例,展示平台完整使用链路。

步骤 1

接入 ERP 销售订单

进入「数据接入」→ 新建数据源 → 选择 MSSQL → 填写连接信息 → 测试连接。

浏览到 dbo.SalesOrder 表,勾选所需字段,配置主键 id、增量游标 update_time、分区字段 create_time,对 phone 列勾选手机号脱敏。

保存后平台自动生成同步管道,在「同步运行日志」中确认首次同步成功。

底层技术支撑(PDF)

增量采集引擎以 update_time 字段为游标,以追加方式写入 ODS 贴源层(开放归档格式,Append-only),完整保留原始数据,支持 Time Travel 历史回溯

步骤 2

治理与标准化

在「治理与标准」的资产清单找到 SalesOrder。

接受 AI 推荐,将 customer_id 映射到企业标准字段 std_customer_id;系统自动识别 phone 为 L3 敏感级别,确认后生效;为 id 配置 unique + not_null 规则,为 amount 配置 >=0 规则。

通过「发布检查」后,平台自动完成去重和质量校验。

底层技术支撑(PDF)

声明式 SQL 转换引擎自动生成字段重命名 + 类型转换 + 空值处理的清洗逻辑,写入 DW 标准层列式存储主键合并表,按主键自动去重,无需额外 SQL

步骤 3

加工销售日汇总

进入「加工与准备」,新建模型 sales_daily,选择"销售日汇总"模板,编辑器自动填充骨架 SQL:

SELECT
  date_trunc('day', create_time) AS stat_date,
  std_customer_id,
  count(*)    AS order_count,
  sum(amount) AS total_amount
FROM sales_order
GROUP BY 1, 2

配置表类型为"聚合表"、分区按月、刷新策略为每日 02:00,保存即自动加入调度。

底层技术支撑(PDF)

模型结果写入 DM 应用层列式存储物理表,列式存储 + 向量化并行执行引擎支撑大数据量聚合分析;高频查询可命中预聚合物化视图,减少全量扫描

步骤 4

对外开放为 API

进入「数据开放」,新建数据应用 sales-daily-api,绑定模型 sales_daily,配置请求参数 stat_date / customer_id。

在「字段授权」里将 total_amount 仅授权给"财务"角色。发布后获得访问地址与 API Key,BI 工具或下游系统即可调用。在「调用日志」中可查看每次调用详情。

底层技术支撑(PDF)

API 鉴权、限流、字段过滤、审计在网关层统一处理;字段脱敏规则通过数据库视图 + 行级安全策略(RLS)在引擎层强制执行,BI 直连也无法绕过

常见问题

使用前常见的几个问题

使用平台需要懂 SQL 吗?+

数据接入、治理与标准、数据开放三个模块完全图形化,不需要写 SQL。加工与准备模块需要简单 SQL,但平台提供业务主题模板与 AI SQL 助手(支持自然语言生成、纠错改写),业务分析师水平即可使用。

同步是全量还是增量?+

默认增量同步:基于 update_time 游标,每次只拉取新增/更新行,对源库只读不锁表。首次运行根据配置的"起始时间"做一次初始装载;支持手动按时间窗口回填历史数据。

数据多久更新一次?+

在「加工与准备」的"刷新策略"中按模型独立配置,支持每日指定时间、每小时、每 15 分钟等粒度(Cron 表达式)。同步任务与加工任务按各自周期运行,互不阻塞。

能对外提供数据 API 吗?+

在「数据开放」中将任意加工模型一键发布为 REST API。支持参数化查询(分页、过滤、排序)、字段级授权、API Key 鉴权、限流与完整调用日志。

数据出问题怎么排查?+

「运行监控」查看任务状态与标准化错误信息;「血缘分析」从问题表一图上溯到源头;「数据管理」用即席查询直接核对样本数据;「审计日志」查看是谁在什么时候改了什么配置。

AI 功能会把企业数据上传到云端吗?+

使用云端 AI API 时,仅上传元数据(表名、字段名、注释)和 SQL 文本,不上传任何业务数据。也支持对接企业自建的私有化大模型,AI 推理完全在内网运行,数据不出企业。

让数据真正流动起来,为业务提供支撑

我们可以安排一对一功能演示,结合您的实际业务系统和数据场景进行说明。平台同时对外开放完整 REST API,支持二次集成与自动化流程接入。