生成AIやChatGPTの仕組みを理解しようとするとき、最も基礎的かつ重要な概念のひとつが「分散表現(Word Embedding)」です。これは、コンピュータが言葉の“意味”を理解するために用いる技術で、直感的にいうと「言葉を地図のような空間に配置する方法」といえます。
📏 分散表現は意味の”距離”を測る技術
「りんご」と「みかん」は意味が似ていますが、「りんご」と「戦車」では全く違う意味ですよね。分散表現では、こうした意味の近さ・遠さを**ベクトル(数値の並び)**として表します。
🔢 例えば:
- 🍎「りんご」→
[0.5, 0.2, -1.3]
- 🍊「みかん」→
[0.6, 0.1, -1.2]
- 🛡️「戦車」→
[3.1, -2.7, 4.0]
このように、多次元の数値空間において、似た意味の言葉は近くに、異なる意味の言葉は遠くに配置されます。
📚 どうやって学習されるの?
コンピュータは、膨大な文書データを読み込み、「この単語の前後にどんな単語が多く出てくるか」を統計的に学習します。
📝 例:
- 「私は朝、りんごを食べた」
- 「子どもはおやつにみかんを食べた」
このように、同じような文脈で使われる単語は「意味が似ている」と判断し、ベクトルの位置を調整していきます。
🧮 ベクトルで意味がわかる!?
驚くべきことに、単語の意味を表すベクトル同士で演算することもできます。
🤯 例えば:
「王様」 – 「男」 + 「女」 ≒ 「女王」
というように、ベクトル同士の足し算・引き算で、新しい意味を構成することができるのです。これはまさに、意味が空間上に表現されている証拠です。
🧠 ChatGPTにとっての「意味の地図」
ChatGPTは、こうした分散表現を基盤に、「次にどんな言葉が来るか」を高精度に予測しています。分散表現があるからこそ、自然な会話、要約、翻訳、発明アイデアの展開などが可能になっているのです。
✅ まとめ
分散表現とは:
言葉を、意味の近さに応じて空間上に配置し、ベクトルとして扱う技術
この考え方を知っておくだけで、生成AIがなぜあれほど自然な会話や出力を生み出せるのか、その核心が見えてきます。
📝 次回は、「トークン」についてわかりやすくご紹介します!