AI 数据管理策略

Q: 数据孤岛如何影响智能体 AI 工作流？

当不同系统中的数据格式各异、录入不一致，或按部门形成孤岛时， 智能体 AI 工作流 一旦跨越这些系统，就会很快出现问题。如果团队自己都无法信任数据，也就无法训练 AI 判断应该信任哪些数据。

摘要

完美数据只是一个神话，企业 AI 采用不应等待它出现。组织需要围绕现有数据制定有意识的 AI 数据管理策略，而不是把计划无限期推迟，寄希望于永远不会完全到来的干净数据。
数据孤岛是企业 AI 性能的主要障碍。89% 的 IT 专业人员表示，孤岛化数据会对运营产生负面影响，并阻碍 AI 系统基于可信、统一的信息采取行动。为每个用例选择合适的数据准备方法至关重要。手动清洗可为结构化、高精度工作流提供准确性，而生成式 AI 更适用于非结构化、高容量场景，在这些场景中，速度比完全保真更重要。
AI 与数据管理中最大的差距在于流程成熟度，而不是技术。现在投资于数据可见性、治理框架、云基础设施和输出验证的企业，将在自主化、智能体系统成为常态时，从 AI 中获得最大价值。

一名男子在现代开放式办公环境中的办公桌前工作，桌上有三台电脑显示器，显示电子表格、图表和代码。画面中还可见其他员工。

数据永远不可能完全干净，只是程度不同而已。

在我攻读数据科学硕士的第一天，一位教授就提醒我们，大约 80% 的时间会花在预处理和清洗上，而不是构建模型。这一点让我印象深刻。

多年后，作为 Ivanti 负责 AI、机器学习和分析的首席产品经理，我发现这条建议在实践中依然非常适用。

随着我和团队努力将 AI 从实验室带入 IT 和安全团队的生产环境，AI 数据管理变得比以往任何时候都更加重要。Ivanti 2025 年工作中的技术报告发现，42% 的办公室员工在工作中使用生成式 AI 工具，较上一年上升 16 个百分点。在 IT 专业人员中，采用率达到 74%。

需求已经存在，顾虑也同样存在。许多 IT 领导者知道自己的数据并不干净，系统相互割裂，治理也尚未跟上。但好消息是：采用 AI 并不需要完美数据。

您需要的是一项清晰的 AI 数据管理策略，并以现有数据为基础来构建。

为什么 IT 数据永远不可能完美

在企业 IT 中，数据质量问题并不是异常情况，而是 AI 与数据管理的基本现实。工单分类不一致，资产清单不完整，关键信息分散在各个系统的数据孤岛中。支持工单和调查回复中的非结构化文本也难以进行整齐划一的分类。

Ivanti 的研究证实了这一问题的严重程度。我们的2026 年自主端点管理优势报告发现，89% 的 IT 专业人员表示，孤岛化数据会对运营产生负面影响，其中 39% 表示数据孤岛会导致资源使用效率低下。

我们的工作中的技术报告也呈现了类似情况：

38% 的 IT 专业人员认为技术复杂性是高效运营的重大障碍，同比上升 4 个百分点。
近一半（46%）的人表示，新的软件部署实际上会推高工单量，而不是减少干扰。

再加上 48% 的组织仍在运行已停止生命周期支持的软件，图景就很清楚了：这是一个天然就很复杂混乱的数据环境。

正如 Ivanti 产品营销总监 David Pickering 对我所说：当不同系统中的数据格式各异、录入方式不一致、按部门形成孤岛，并且受到多年并购历史的影响时，跨越这些系统的智能体 AI 工作流很快就会遇到问题。如果您自己都不知道该信任哪些数据，就无法告诉 AI 应该信任哪些数据。没有这个基础，即使设计良好的自动化也会在关键环节出现问题。

换言之，“垃圾进，垃圾出”依然适用。但高质量无瑕的数据短期内不会出现。任何严肃的主数据管理和机器学习方法，都必须正视这种混乱，而不是等待它自行消失。

决策框架：选择您的数据管理策略

在 IT 领域，面向 AI 的数据管理主要有两条路径。两者都可行，也各有取舍，许多组织会针对不同用例同时采用这两种方法。

路径 1：手动/程序化清洗

当我的团队为Ivanti 的 ITSM 系统引入工单分类时，我们正在训练一个模型来对服务请求进行分类。这需要干净且标注完善的训练数据。因此，我们在工作流中加入了一个步骤，让管理员有机会在数据输入模型之前进行审核和清洗。事实证明，这种人工审核显著提升了准确性。

当您训练或微调自定义模型、将数据摄取到知识库，或处理可定义质量标准的结构化数据集时，这一路径最为适用。其取舍在于时间和资源投入，带来的结果则是高准确性和完全控制。

它也最适合已具备基础数据卫生能力的情况。许多组织尚未达到这一水平：只有35% 会跟踪设备使用年限或位置，只有 37% 会跟踪补丁状态。

路径 2：生成式 AI 处理

有时，手动清洗并不可行。我在处理 Ivanti 的调查分析时对此深有体会。调查回复是任何 IT 团队都会遇到的最混乱数据之一：自由文本、格式不一致、细节差异极大。要在规模化场景下手动清洗这些数据并不现实。

因此，我们使用大语言模型来识别不完整、非结构化输入中的主题、模式和情绪。我们能够快速汇总整份调查，标记满意度驱动因素，并呈现可执行的洞察。

这一路径非常适合高容量非结构化数据、手动清洗根本不可行的情况，或任何清洗成本高于输出价值的场景。它确实需要访问能力足够的大语言模型，并验证该用例是否适配。

如何在两种策略之间做出选择

决策取决于数据量和数据类型多样性、时间限制、准确性要求，以及您需要对数据流向和处理方式拥有多大控制权。

正在微调一个对精度要求极高的模型？那就投入数据清洗。正在处理大量非结构化输入且速度至关重要？那就充分利用生成式 AI。目标是有意识地做出选择，而不是因为数据不完美就停滞不前。

构建面向数据管理的 AI 就绪基础设施

云服务在这里至关重要，我这么说并不夸张。当我的团队构建数字体验评分，用于衡量、量化并改善数字化员工体验时，云是关键推动因素。它充当了我们的集成枢纽，将服务工单、设备遥测数据、应用性能和安全信号汇聚在一起。

没有云基础设施，就无法规模化实现这种多来源集成。云还使我们能够运行一种混合 AI 模型，同时处理文本和数值遥测数据。要在这种复杂度下支持数千台设备和用户，本地部署并不可行。

除了计算能力之外，AI 就绪基础设施还意味着要解决面向机器学习的主数据管理问题。组织需要在各系统之间建立单一可信数据源。数据格式需要标准化，尤其是在通过并购实现增长、引入采用不同规范的旧平台时更是如此。

数据治理让情况更加复杂。GDPR 和 CCPA 等法规对个人数据的处理方式以及可传输位置提出了严格要求。对于全球性组织而言，这意味着 AI 管道需要考虑不同地区司法管辖要求的差异，尤其是在评估是否使用外部 AI 服务或将处理保留在内部时。

我们的自主端点管理研究发现，只有 32% 的 IT 专业人员使用统一端点管理系统。没有统一整合的可见性，AI 和自动化就无法充分发挥潜力。有效的 AI 数据管理始于可见性：看不见，就无法自动化。

IT 团队实施 AI 的最佳实践

在 AI 数据管理方面，我看到的最常见错误之一，就是采用了工具，却没有建立支持这些工具的流程。

建立知识管理实践

Ivanti 的 ITSM 平台利用 AI 生成知识文章，来源是过去的工单和事件解决记录。生产力提升是真实存在的，但这并不意味着可以不再需要管理规范。

文章仍然需要审核和批准节奏、版本控制以及明确的所有权。

尽管86% 的 IT 专业人员同意 AI 对高效运营至关重要，但用于预测性维护或自动化事件响应等高价值场景的人还不到一半。AI 与数据管理之间的差距不在技术，而在流程成熟度。

验证与治理

输出端的验证与输入端的数据质量同样重要。AI 生成的结果需要接受检查，尤其是当组织迈向智能体 AI 时，自主系统会实时根据决策采取行动。问题不只是返回的数据看起来是否正确，而是系统是否在采取正确的行动。

衡量 AI 性能同样重要：使用频率如何、准确性如何，以及在哪里出现问题。Ivanti 2026 年网络安全现状报告发现，92% 的安全专业人员表示，自动化能有效缩短平均响应时间。不过，这种有效性取决于持续监控和调优。

将 AI 作为改进数据实践的催化剂

AI 不只是消耗良好的数据实践，它也会推动这些实践的发展。通过降低内容创建和分析的门槛，AI 让团队有余力构建此前被推迟的治理框架。当生成一篇知识文章从数小时缩短到数分钟，团队就可以把这段时间投入到审批工作流和质量保证中。

当初级技术人员获得实时 AI 指导时，这一点尤其有价值；他们可以在更高水平上做出贡献，而资深员工则能专注于战略工作。

我们的自主端点管理优势报告发现，62% 的 IT 专业人员感到日常运营不堪重负，四分之一的人表示有同事因职业倦怠而离职。能够增强人类专业能力的 AI，可帮助团队在不付出这种代价的情况下扩大能力。

路径并不总是清晰，但策略可以清晰

完美数据只是一个神话，但这不应阻止您前进。

针对结构化、高精度用例进行手动清洗。针对非结构化、高容量场景使用生成式 AI。两者都需要有意识地投入云基础设施、治理和流程建设。

随着 AI 模型持续发展，不仅融入统计模式识别，还纳入明确规则和结构化推理，实现 AI 就绪数据管理的门槛将持续降低。那些现在就行动、清醒认识自身数据缺陷并配备策略加以管理的组织，将获得最大价值。

常见问题

数据孤岛如何影响智能体 AI 工作流？

当不同系统中的数据格式各异、录入不一致，或按部门形成孤岛时，智能体 AI 工作流一旦跨越这些系统，就会很快出现问题。如果团队自己都无法信任数据，也就无法训练 AI 判断应该信任哪些数据。

IT 中面向 AI 的两种主要数据管理策略是什么？

在 IT 领域，AI 数据管理主要有两条路径。路径一是手动/程序化清洗。当您训练或微调自定义模型、将数据摄取到知识库，或处理可定义质量标准的结构化数据集时，这一路径最为适用。路径二是生成式 AI 处理，即使用大语言模型来识别不完整、非结构化输入中的主题、模式和情绪。这种方法最适合大型非结构化数据集，在这些场景中，AI 能够比单纯依靠手动方法更快、更规模化地开展工作。

AI 数据管理的最佳实践有哪些？

AI 数据管理的最佳实践始于可见性：在构建之前先清晰了解您的数据，并围绕现有数据设计策略，而不是等待完美数据。跨系统标准化格式，创建单一可信数据源，并选择合适的清洗方法：需要精度时使用手动清洗，需要处理规模时使用生成式 AI。像验证输入一样严格验证 AI 生成的输出，持续监控使用情况、准确性和故障点，并将云基础设施、合规和流程作为不可或缺的基础进行投入。

统一的IT与安全，由AI驱动。

成为 Ivanti Innovator

5周的工作量，由AI归还。

AI 数据管理的复杂真相（以及应对之道）

摘要

为什么 IT 数据永远不可能完美