失敗しているのはAIではない、人間が失敗しているのだ – Cyber Tech
2018年、GoogleはBERTと呼ばれるAIモデルを公開し、機械が言語の文脈を理解する方法を根底から変えた。それまで、言語の文脈的な意味を理解するには、用途ごとに異なるモデルとデータセットが必要だった。BERTはその壁を破り、一つのモデルで複数言語にわたる文脈理解を可能にした。
だが、BERTを本当に価値あるものにしたのは、技術そのものではなかった。鍵は、次の3つへの深い理解だった。
- モデルの動作原理——強み、弱み、依存関係を含む
- 解決すべき業界固有の課題と業務上の障壁
- スケールさせるためのモデルのチューニングと周辺システムの設計
私のチームがBERTをオンライン広告に適用し、検索連動型広告の仕組みを刷新できたのも、まさにその理解があったからだ。この構図は今日、大規模言語モデル(LLM)にそのまま当てはまる。
LLMを正しく評価できているか
生成AIの有効性をめぐる議論が続く中、多くの調査が同じ結論を示している。企業はLLMをどう使えばいいか、まだよくわかっていない。
理解しておくべき重要な点がある。LLMは確かに流暢で創造的な文章やコードを生成できる。しかしそれは、膨大な学習データから確率的なパターンを学んだ結果にすぎない。この性質は、事実の正確さや一貫した論理が求められる場面では弱点になる。
「ハルシネーション(幻覚)」はバグではない。これはモデルの設計上の特性だ。深層学習の研究者たちは長年、ルールを設けることがモデルの能力を損なうと主張してきた。その結果、LLMは不確かな場合でも何らかの出力を生成しようとする——それがハルシネーションの本質だ。だからこそ、医療・金融・法律のような重大な判断が求められる領域では、適切なガードレールなしにLLMを展開すべきではない。
McKinseyが報告しているように、多くのAIプロジェクトがパイロット段階を超えられないのも、モデルの理解が浅いまま間違った問題に当てはめようとするからだ。これはLLM活用の半分の問題にすぎない。成果を出すには、もう半分——自社のドメインでデータを収集・スケールする戦略——も欠かせない。
・モデルの基本的な仕組みを理解すること
・自社のドメインでデータを収集・スケールする戦略を構築すること
AIのスケール問題は、ドメインのデータ問題だ
医療・金融・法律はいずれも膨大なデータを持ち、AIへの投資余力もある。しかし、それぞれに固有の壁がある。
医療機関は年間平均50ペタバイトものデータを生成する。だが、その97percentは使われていない。臨床メモ、放射線レポート、HIPAA準拠のために個人情報が除去された文書、サイロ化された記録……。データがあることと、それを使えることはまったく別の話だ。AIが腫瘍を高精度で検出できるのは、質の高いデータにアクセスできた場合の話にすぎない。
金融分野では逆の問題がある。取引データは構造化されており、不正検出や顧客対応の自動化に活用されている。しかし、複数ステップの数値計算を必要とする場面では、LLMのエラー率が高く、計算集約型の業務との相性は悪い。
法律分野では、訴訟書類にAIが生成した架空の判例が紛れ込む事例が相次ぎ、不信感が広まっている。米国法曹協会(ABA)の2024年調査では、弁護士の75percentが「精度への懸念」をAI活用の最大の障壁として挙げた。
しかし法廷の外を見ると、話は変わる。契約書管理、コンプライアンス・リスク評価、知的財産保護——これらはLLMの強みである非構造化データの処理、パターン認識、情報抽出と親和性が高い領域だ。
リスクに基づいて展開を判断する
同じ「法律分野」でも、法廷での訴訟書類と契約書管理ではAIのリスクプロファイルはまったく異なる。どこに適用するかで成否は大きく変わる。鍵を握るのは、LLMの強みが活きる領域とそうでない領域を見極めるフレームワークだ。
このフレームワークを考えるうえで参考になるのが、米国自動車技術者協会(SAE)が定める自動運転の安全基準「SAE J3016」だ。このフレームワークは、人間が責任を持つシステム(レベル1〜2)と、機械が主体的に判断するシステム(レベル3〜5)を明確に区別している。
これをエンタープライズAIに適用すれば、何をどの順番で開発すべきかが見えてくる。
たとえば契約書から情報を取り出すエージェントや、文書を自然言語で検索するエージェントは「レベル1〜2」に相当する——採用しやすく、リスクも低い。一方、AIが契約を自律的に検証・更新するシステムは、얼핏すると問題なさそうに見えるが、実は「監視なしでの契約更新」という重大なリスクを孕む。訴訟中の相手企業との契約を、AIが気づかず更新してしまう可能性すら否定できない。
判断の基準はシンプルだ。「うまくいく可能性はどのくらいか。失敗したとき何が起きるか」。競合他社への対抗意識ではなく、この問いこそが展開の順序を決める基準になるべきだ。
リーダーが自問すべき3つのこと
20年以上AIと向き合ってきた経験から言えることがある。テクノロジーが組織にどれだけ貢献できるかを決める最大の要因は、組織そのものがそのテクノロジーをどれだけ理解しているかだ。生成AIの導入を検討するリーダーは、まず次の3つを自問してほしい。
1. 技術の仕組みを本当に理解しているか
マーケティングの言葉ではなく、アーキテクチャの本質を理解しているか。LLMは論理的な推論ではなく、確率的なパターンマッチングを行うシステムだ。この理解なしに展開先を決めれば、「できないこと」を任せる失敗を繰り返す。
2. データの実態を把握しているか
自分たちの業界でデータはどう共有・収集・保存されているか。モデルをチューニングするためにどのデータを使うか。LLMは汎用的な事前学習を経て、ドメイン固有のファインチューニングで初めて意味のある出力を生む。データの実態を見誤ると、投資は空振りに終わる。
3. 展開の優先順位を決めるフレームワークがあるか
リスクベースのモデルなど、何を・どの順番で・どう評価するかを決める仕組みがあるか。まず低リスクで人間が監督できる用途から始め、評価とフィードバックを積み重ね、信頼性の確認を重ねながら段階的に拡張する。
変革への唯一の道は、基盤を作ること
AIが今四半期にできることを過大評価し、この10年でできることを過小評価する——そんな誤りが繰り返されてきた。
テクノロジーは進化し、産業は再編される。しかし変革を生み出すのは、基盤となる仕事を丁寧にやり遂げた企業だけだ。
AIに問題があるのではない。問題は常に、人間の側にある。
