第6回 🗺️ 言葉の意味を”地図”にする:分散表現とは何か?

生成AIやChatGPTの仕組みを理解しようとするとき、最も基礎的かつ重要な概念のひとつが「分散表現(Word Embedding)」です。これは、コンピュータが言葉の“意味”を理解するために用いる技術で、直感的にいうと「言葉を地図のような空間に配置する方法」といえます。


📏 分散表現は意味の”距離”を測る技術

「りんご」と「みかん」は意味が似ていますが、「りんご」と「戦車」では全く違う意味ですよね。分散表現では、こうした意味の近さ・遠さを**ベクトル(数値の並び)**として表します。

🔢 例えば:

  • 🍎「りんご」→ [0.5, 0.2, -1.3]
  • 🍊「みかん」→ [0.6, 0.1, -1.2]
  • 🛡️「戦車」→ [3.1, -2.7, 4.0]

このように、多次元の数値空間において、似た意味の言葉は近くに、異なる意味の言葉は遠くに配置されます。


📚 どうやって学習されるの?

コンピュータは、膨大な文書データを読み込み、「この単語の前後にどんな単語が多く出てくるか」を統計的に学習します。

📝 例:

  • 「私は朝、りんごを食べた」
  • 「子どもはおやつにみかんを食べた」

このように、同じような文脈で使われる単語は「意味が似ている」と判断し、ベクトルの位置を調整していきます。


🧮 ベクトルで意味がわかる!?

驚くべきことに、単語の意味を表すベクトル同士で演算することもできます。

🤯 例えば:

「王様」 – 「男」 + 「女」 ≒ 「女王」

というように、ベクトル同士の足し算・引き算で、新しい意味を構成することができるのです。これはまさに、意味が空間上に表現されている証拠です。


🧠 ChatGPTにとっての「意味の地図」

ChatGPTは、こうした分散表現を基盤に、「次にどんな言葉が来るか」を高精度に予測しています。分散表現があるからこそ、自然な会話、要約、翻訳、発明アイデアの展開などが可能になっているのです。


✅ まとめ

分散表現とは:

言葉を、意味の近さに応じて空間上に配置し、ベクトルとして扱う技術

この考え方を知っておくだけで、生成AIがなぜあれほど自然な会話や出力を生み出せるのか、その核心が見えてきます。

📝 次回は、「トークン」についてわかりやすくご紹介します!

This entry was posted in ブログ. Bookmark the permalink.