一名男子在现代开放式办公环境中的办公桌前工作,桌上有三台电脑显示器,显示电子表格、图表和代码。画面中还可见其他员工。

数据永远不可能完全干净,只是程度不同而已。

在我攻读数据科学硕士的第一天,一位教授就提醒我们,大约 80% 的时间会花在预处理和清洗上,而不是构建模型。这一点让我印象深刻。

多年后,作为 Ivanti 负责 AI、机器学习和分析的首席产品经理,我发现这条建议在实践中依然非常适用。

随着我和团队努力将 AI 从实验室带入 IT 和安全团队的生产环境,AI 数据管理变得比以往任何时候都更加重要。Ivanti 2025 年工作中的技术报告发现,42% 的办公室员工在工作中使用生成式 AI 工具,较上一年上升 16 个百分点。在 IT 专业人员中,采用率达到 74%。

需求已经存在,顾虑也同样存在。许多 IT 领导者知道自己的数据并不干净,系统相互割裂,治理也尚未跟上。但好消息是:采用 AI 并不需要完美数据。

您需要的是一项清晰的 AI 数据管理策略,并以现有数据为基础来构建。

为什么 IT 数据永远不可能完美

在企业 IT 中,数据质量问题并不是异常情况,而是 AI 与数据管理的基本现实。工单分类不一致,资产清单不完整,关键信息分散在各个系统的数据孤岛中。支持工单和调查回复中的非结构化文本也难以进行整齐划一的分类。

Ivanti 的研究证实了这一问题的严重程度。我们的2026 年自主端点管理优势报告发现,89% 的 IT 专业人员表示,孤岛化数据会对运营产生负面影响,其中 39% 表示数据孤岛会导致资源使用效率低下。

我们的工作中的技术报告也呈现了类似情况:

  • 38% 的 IT 专业人员认为技术复杂性是高效运营的重大障碍,同比上升 4 个百分点。
  • 近一半(46%)的人表示,新的软件部署实际上会推高工单量,而不是减少干扰。

再加上 48% 的组织仍在运行已停止生命周期支持的软件,图景就很清楚了:这是一个天然就很复杂混乱的数据环境。

正如 Ivanti 产品营销总监 David Pickering 对我所说:当不同系统中的数据格式各异、录入方式不一致、按部门形成孤岛,并且受到多年并购历史的影响时,跨越这些系统的智能体 AI 工作流很快就会遇到问题。如果您自己都不知道该信任哪些数据,就无法告诉 AI 应该信任哪些数据。没有这个基础,即使设计良好的自动化也会在关键环节出现问题。

换言之,“垃圾进,垃圾出”依然适用。但高质量无瑕的数据短期内不会出现。任何严肃的主数据管理和机器学习方法,都必须正视这种混乱,而不是等待它自行消失。

决策框架:选择您的数据管理策略

在 IT 领域,面向 AI 的数据管理主要有两条路径。两者都可行,也各有取舍,许多组织会针对不同用例同时采用这两种方法。

路径 1:手动/程序化清洗

当我的团队为Ivanti 的 ITSM 系统引入工单分类时,我们正在训练一个模型来对服务请求进行分类。这需要干净且标注完善的训练数据。因此,我们在工作流中加入了一个步骤,让管理员有机会在数据输入模型之前进行审核和清洗。事实证明,这种人工审核显著提升了准确性。

当您训练或微调自定义模型、将数据摄取到知识库,或处理可定义质量标准的结构化数据集时,这一路径最为适用。其取舍在于时间和资源投入,带来的结果则是高准确性和完全控制。

它也最适合已具备基础数据卫生能力的情况。许多组织尚未达到这一水平:只有35% 会跟踪设备使用年限或位置,只有 37% 会跟踪补丁状态。

路径 2:生成式 AI 处理

有时,手动清洗并不可行。我在处理 Ivanti 的调查分析时对此深有体会。调查回复是任何 IT 团队都会遇到的最混乱数据之一:自由文本、格式不一致、细节差异极大。要在规模化场景下手动清洗这些数据并不现实。

因此,我们使用大语言模型来识别不完整、非结构化输入中的主题、模式和情绪。我们能够快速汇总整份调查,标记满意度驱动因素,并呈现可执行的洞察。

这一路径非常适合高容量非结构化数据、手动清洗根本不可行的情况,或任何清洗成本高于输出价值的场景。它确实需要访问能力足够的大语言模型,并验证该用例是否适配。

如何在两种策略之间做出选择

决策取决于数据量和数据类型多样性、时间限制、准确性要求,以及您需要对数据流向和处理方式拥有多大控制权。

正在微调一个对精度要求极高的模型?那就投入数据清洗。正在处理大量非结构化输入且速度至关重要?那就充分利用生成式 AI。目标是有意识地做出选择,而不是因为数据不完美就停滞不前。

构建面向数据管理的 AI 就绪基础设施

云服务在这里至关重要,我这么说并不夸张。当我的团队构建数字体验评分,用于衡量、量化并改善数字化员工体验时,云是关键推动因素。它充当了我们的集成枢纽,将服务工单、设备遥测数据、应用性能和安全信号汇聚在一起。

没有云基础设施,就无法规模化实现这种多来源集成。云还使我们能够运行一种混合 AI 模型,同时处理文本和数值遥测数据。要在这种复杂度下支持数千台设备和用户,本地部署并不可行。

除了计算能力之外,AI 就绪基础设施还意味着要解决面向机器学习的主数据管理问题。组织需要在各系统之间建立单一可信数据源。数据格式需要标准化,尤其是在通过并购实现增长、引入采用不同规范的旧平台时更是如此。

数据治理让情况更加复杂。GDPR 和 CCPA 等法规对个人数据的处理方式以及可传输位置提出了严格要求。对于全球性组织而言,这意味着 AI 管道需要考虑不同地区司法管辖要求的差异,尤其是在评估是否使用外部 AI 服务或将处理保留在内部时。

我们的自主端点管理研究发现,只有 32% 的 IT 专业人员使用统一端点管理系统。没有统一整合的可见性,AI 和自动化就无法充分发挥潜力。有效的 AI 数据管理始于可见性:看不见,就无法自动化。

IT 团队实施 AI 的最佳实践

在 AI 数据管理方面,我看到的最常见错误之一,就是采用了工具,却没有建立支持这些工具的流程。

建立知识管理实践

Ivanti 的 ITSM 平台利用 AI 生成知识文章,来源是过去的工单和事件解决记录。生产力提升是真实存在的,但这并不意味着可以不再需要管理规范。

文章仍然需要审核和批准节奏、版本控制以及明确的所有权。

尽管86% 的 IT 专业人员同意 AI 对高效运营至关重要,但用于预测性维护或自动化事件响应等高价值场景的人还不到一半。AI 与数据管理之间的差距不在技术,而在流程成熟度。

验证与治理

输出端的验证与输入端的数据质量同样重要。AI 生成的结果需要接受检查,尤其是当组织迈向智能体 AI 时,自主系统会实时根据决策采取行动。问题不只是返回的数据看起来是否正确,而是系统是否在采取正确的行动。

衡量 AI 性能同样重要:使用频率如何、准确性如何,以及在哪里出现问题。Ivanti 2026 年网络安全现状报告发现,92% 的安全专业人员表示,自动化能有效缩短平均响应时间。不过,这种有效性取决于持续监控和调优。

将 AI 作为改进数据实践的催化剂

AI 不只是消耗良好的数据实践,它也会推动这些实践的发展。通过降低内容创建和分析的门槛,AI 让团队有余力构建此前被推迟的治理框架。当生成一篇知识文章从数小时缩短到数分钟,团队就可以把这段时间投入到审批工作流和质量保证中。

当初级技术人员获得实时 AI 指导时,这一点尤其有价值;他们可以在更高水平上做出贡献,而资深员工则能专注于战略工作。

我们的自主端点管理优势报告发现,62% 的 IT 专业人员感到日常运营不堪重负,四分之一的人表示有同事因职业倦怠而离职。能够增强人类专业能力的 AI,可帮助团队在不付出这种代价的情况下扩大能力。

路径并不总是清晰,但策略可以清晰

完美数据只是一个神话,但这不应阻止您前进。

针对结构化、高精度用例进行手动清洗。针对非结构化、高容量场景使用生成式 AI。两者都需要有意识地投入云基础设施、治理和流程建设。

随着 AI 模型持续发展,不仅融入统计模式识别,还纳入明确规则和结构化推理,实现 AI 就绪数据管理的门槛将持续降低。那些现在就行动、清醒认识自身数据缺陷并配备策略加以管理的组织,将获得最大价值。