スプレッドシート、グラフ、コードを表示した3台のコンピューターモニターが並ぶデスクで作業する男性。現代的なオープンオフィス環境で、ほかの従業員も見える。

データが常にクリーンであることはありません。違いはその程度にすぎません。

データサイエンスの修士課程に入った初日、教授から「時間の約80%はモデル構築ではなく、前処理とクリーニングに費やすことになる」と聞かされ、このことを深く理解しました。

それから数年後、IvantiでAI、ML、アナリティクス担当のプリンシパルプロダクトマネージャーを務める中で、この教えが実務でも非常によく当てはまることを実感しています。

私のチームは、ITおよびセキュリティチーム向けにAIを研究段階から本番環境へ移行させる取り組みを進めています。その中で、AIデータ管理の重要性はこれまで以上に高まっています。Ivantiの2025年版「Technology at Work」レポートによると、オフィスワーカーの42%が職場で生成AIツールを利用しており、わずか1年で16ポイント増加しました。IT担当者では、導入率が74%に達しています。

需要は確かにあります。一方で、ためらいもあります。多くのITリーダーは、自社のデータがクリーンではなく、システムが分断され、ガバナンスが追いついていないことを理解しています。朗報は、AIを導入するために完璧なデータは必要ないということです。

必要なのは、すでに保有しているデータを前提に構築された、AIのための明確なデータ管理戦略です。

ITデータが決して完璧にならない理由

エンタープライズITにおいて、データ品質の問題は例外ではありません。AIとデータ管理における基本的な現実です。チケットの分類は一貫せず、資産インベントリは不完全です。重要な情報はシステム間のサイロに分散しています。そして、サポートチケットや調査回答に含まれる非構造化テキストは、きれいに分類することが困難です。

Ivantiの調査は、この問題の根深さを裏付けています。2026年版Autonomous Endpoint Management Advantage Reportでは、IT担当者の89%がサイロ化されたデータが運用に悪影響を及ぼしていると回答し、39%がサイロによってリソースの利用効率が低下していると述べています。

当社のTech at Workレポートでも、同様の傾向が示されています。

  • IT担当者の38%が、テクノロジーの複雑さを効果的な運用の大きな障壁として挙げており、前年から4ポイント増加しています。
  • 約半数(46%)が、新しいソフトウェアの展開は問題を減らすどころか、実際にはチケット量を増加させていると回答しています。

さらに、48%の組織がいまだにサポート終了済みソフトウェアを運用していることを考えると、状況は明らかです。これは、構造的に乱雑になりやすいデータ環境なのです。

IvantiのプロダクトマーケティングディレクターであるDavid Pickeringは、私にこう語りました。システム間でデータ形式が異なり、入力に一貫性がなく、部門ごとにサイロ化され、長年の買収によって形作られている場合、それらのシステムをまたぐエージェント型AIワークフローはすぐに問題に直面します。自分自身がどのデータを信頼すべきか分からなければ、AIにどのデータを信頼すべきか指示することはできません。そして、その基盤がなければ、どれほど優れた設計の自動化であっても綻びが生じます。

言い換えれば、「Garbage in, garbage out(質の低い入力からは質の低い出力しか得られない)」という原則はいまも有効です。しかし、完全に整ったデータが近いうちに手に入ることはありません。マスターデータ管理と機械学習に真剣に取り組むなら、乱雑さが自然に解消されるのを待つのではなく、その乱雑さを前提にする必要があります。

意思決定フレームワーク — データ管理戦略の選択

ITにおけるAI向けデータ管理には、主に2つの道筋があります。どちらも有効であり、それぞれにトレードオフがあります。多くの組織では、ユースケースに応じて両方を使い分けることになるでしょう。

パス1:手動/プログラムによるクリーニング

私のチームがIvantiのITSMシステムにチケット分類を導入した際、サービスリクエストを分類するモデルをトレーニングしていました。そのためには、クリーンで適切にラベル付けされたトレーニングデータが必要でした。そこで、モデルにデータを投入する前に、管理者がデータを確認し、クリーニングできるステップをワークフローに組み込みました。この人によるレビューにより、精度に測定可能な改善が見られました。

この道筋は、カスタムモデルのトレーニングやファインチューニングを行う場合、データをナレッジベースに取り込む場合、または品質基準を定義できる構造化データセットを扱う場合に最も効果的です。トレードオフは時間とリソースです。その成果として、高い精度と完全なコントロールが得られます。

また、この道筋は、基本的なデータ衛生がすでに整っている場合に最も効果を発揮します。多くの組織はまだその段階に達していません。デバイスの経過年数を追跡している組織はわずか35%、所在地を追跡している組織も同程度で、パッチ状況を追跡している組織は37%にとどまります。

パス2:生成AIによる処理

手動クリーニングが現実的でない場合もあります。Ivantiの調査分析に取り組んだ際、私はそれを学びました。調査回答は、ITチームが扱うデータの中でも特に乱雑なものの一つです。自由形式のテキスト、一貫しないフォーマット、大きくばらつく詳細度。これを大規模に手作業でクリーニングするのは現実的ではありません。

そこで私たちは、大規模言語モデルを使用して、不完全で非構造化された入力からテーマ、パターン、感情を特定しました。調査全体を要約し、満足度を左右する要因を抽出し、実行可能なインサイトを迅速に提示できました。

この道筋は、大量の非構造化データ、手動クリーニングがそもそも不可能な状況、またはクリーニングのコストが出力の価値を上回るあらゆるシナリオに最適です。ただし、高性能な大規模言語モデルへのアクセスと、そのユースケースが適合していることの検証が必要です。

2つの戦略をどう選ぶか

判断の基準は、データの量と種類、時間的制約、精度要件、そしてデータの保管場所や処理方法をどの程度コントロールする必要があるかです。

精度が重要なモデルをファインチューニングするのであれば、クリーニングに投資すべきです。スピードが重要で、大量の非構造化入力を扱うのであれば、生成AIを活用すべきです。目的は、データが完璧ではないからといって何もしないのではなく、意図を持って選択することです。

データ管理に向けたAI対応インフラの構築

ここでクラウドサービスは不可欠です。これは軽々しく言っているわけではありません。私のチームがデジタルエクスペリエンススコアを構築し、デジタル従業員体験を測定、定量化し、改善したとき、クラウドは重要な実現要素でした。クラウドは統合ハブとして機能し、サービスチケット、デバイステレメトリ、アプリケーションパフォーマンス、セキュリティシグナルを結び付けました。

このレベルの複数ソース統合は、クラウドインフラなしに大規模に実現することはできません。クラウドにより、テキストと数値テレメトリを同時に処理するハイブリッドAIモデルの実行も可能になりました。この複雑さのレベルで、数千台のデバイスとユーザーをオンプレミスでサポートすることは現実的ではありません。

コンピューティングに加えて、AI対応インフラとは、機械学習のためのマスターデータ管理に取り組むことを意味します。組織には、システム全体にわたる信頼できる単一の情報源が必要です。特に、買収による成長によって異なる慣例を持つレガシープラットフォームが持ち込まれる場合、データ形式の標準化が必要です。

データガバナンスは、状況をさらに複雑にします。GDPRやCCPAなどの規制は、個人データの処理方法や送信先について厳格な要件を課しています。グローバル組織では、外部AIサービスを使用するか、処理を社内にとどめるかを評価する際に、AIパイプラインが地域ごとの管轄権の違いを考慮する必要があります。

当社のAutonomous Endpoint Management調査では、統合エンドポイント管理システムを使用しているIT担当者はわずか32%であることが分かりました。可視性が統合されていなければ、AIと自動化はその可能性を十分に発揮できません。効果的なAIデータ管理は可視性から始まります。見えないものを自動化することはできません。

AIを導入するITチームのベストプラクティス

AIのためのデータ管理に関して、ツールを導入しながらそれを支えるプロセスを整備しないことは、私が目にする最も一般的な間違いの一つです。

ナレッジ管理プラクティスの確立

IvantiのITSMプラットフォームは、過去のチケットやインシデント解決からAIを使用してナレッジ記事を生成します。生産性向上の効果は確かです。しかし、それによって管理規律の必要性がなくなるわけではありません。

記事には引き続き、レビューと承認のサイクル、バージョン管理、明確な所有者が必要です。

AIが効率的な運用に重要であることにIT担当者の86%が同意しているにもかかわらず、予測メンテナンスや自動インシデント対応のような高価値のシナリオでAIを利用しているのは半数未満です。AIとデータ管理におけるギャップはテクノロジーではなく、プロセスの成熟度にあります。

検証とガバナンス

入力側でデータ品質が重要であるのと同じように、出力側では検証が重要です。AIが生成した結果は確認する必要があります。特に、組織がエージェント型AIへ移行し、自律システムがリアルタイムで判断に基づいて行動するようになるほど、その重要性は高まります。問題は、返ってきたデータが正しく見えるかどうかだけではありません。システムが適切なアクションを取っているかどうかです。

AIのパフォーマンスを測定することも重要です。どの程度利用されているか、どれほど正確か、どこで失敗しているかを把握する必要があります。Ivantiの2026年版State of Cybersecurity Reportでは、セキュリティ専門家の92%が、自動化は平均対応時間の短縮に有効であると回答しています。ただし、その有効性は継続的な監視と調整に依存します。

より優れたデータプラクティスを促す触媒としてAIを活用する

AIは、優れたデータプラクティスを単に消費するだけではありません。それを推進します。AIはコンテンツ作成と分析の障壁を下げることで、これまで先送りされてきたガバナンスフレームワークの構築にチームが取り組めるようにします。ナレッジ記事の作成に数時間ではなく数分しかかからないなら、チームはその時間を承認ワークフローや品質保証に投資できます。

これは、ジュニア技術者がリアルタイムのAIガイダンスを受け、より高いレベルで貢献できるようになる一方で、シニアスタッフが戦略に集中できるようになる場合に、特に大きな価値を発揮します。

当社のAutonomous Endpoint Management Advantage Reportでは、IT担当者の62%が日々の業務に圧倒されていると感じており、4人に1人が同僚が燃え尽き症候群を理由に退職したと回答しています。人間の専門知識を補強するAIは、そのような代償を払うことなくチームの対応力を拡張するのに役立ちます。

道筋が常に明確とは限りませんが、戦略は明確にできます

完璧なデータは幻想です。しかし、それを理由に立ち止まるべきではありません。

構造化された高精度のユースケースには手動クリーニングを。非構造化かつ大容量のシナリオには生成AIを。どちらにも、クラウドインフラ、ガバナンス、プロセス開発への意図的な投資が必要です。

AIモデルは、統計的なパターン認識だけでなく、明示的なルールや構造化された推論も取り込みながら進化を続けています。それに伴い、AI対応データ管理への障壁は今後も低下していくでしょう。自社データの不完全さを冷静に見据え、それを管理する戦略を備えて今行動する組織が、最大の価値を獲得することになります。