【AIF-C01】トークン・埋め込み・Transformerとは？生成AIの基礎用語を図解

AWS認定AIプラクティショナー（AIF-C01）で配点の大きいドメイン2「生成AIの基礎」。その土台になるのがトークン・埋め込み・Transformerといった用語です。ここがふわっとしたままだと後の応用（RAGやファインチューニング）でつまずきます。この記事で一気に地ならししましょう。全体像はシラバスマップをどうぞ。

そもそも「基盤モデル（FM）」とは
トークンとチャンク：テキストを区切る単位
埋め込み（embeddings）とベクトル
Transformer（トランスフォーマー）をやさしく
マルチモーダルと拡散モデル
生成AIでできること（主なユースケース）
確認クイズ
よくある質問（FAQ）
1. Q. 埋め込みとトークンの違いは？
2. Q. AIF試験でTransformerの数式は問われますか？
まとめ

そもそも「基盤モデル（FM）」とは

基盤モデル（Foundation Model）とは、大量のデータで事前学習され、さまざまな用途に応用できる大規模なAIモデルのことです。文章を扱う大規模言語モデル（LLM）もその一種。基盤モデルを「土台」に、プロンプトや追加データで目的のタスクに使うのが生成AIの基本スタイルです。

トークンとチャンク：テキストを区切る単位

トークンとは、モデルがテキストを処理するときの最小の区切り単位です（単語や単語の一部）。料金や入力上限は「トークン数」で数えられます。
一方チャンクは、長い文書を検索や処理のために意味のあるかたまりに分割したもの。RAGで文書をベクトル化する前処理などで使います。

長い文書をチャンク（意味のあるかたまり）に分割するイメージ図 — 図：長い文書を「チャンク」に分割。RAGではこの単位でベクトル化・検索します。

埋め込み（embeddings）とベクトル

埋め込み（embeddings）は、単語や文章を「意味の近さ」が距離になるように数値のベクトルへ変換したものです。意味が近い言葉ほどベクトル空間で近くに配置されます。検索やRAGは、この「近さ」を使って関連情報を見つけます。

図：埋め込みは語や文を「意味の近さ＝距離」になるベクトルに変換します。「犬」と「子犬」は近く、「犬」と「電車」は遠い。RAGの検索はこの“近さ”で関連文書を選びます。

Transformer（トランスフォーマー）をやさしく

いまの生成AIの中心にあるのがTransformerという仕組みです。ポイントはアテンション（注目）＝文中のどの語が重要かに「注目」して、文脈を踏まえた処理を行うこと。これにより、長い文の意味や文脈に加え、離れた位置にある語どうしの関係（長距離の依存）も効率よく捉えられます。AIF試験では仕組みの数式までは不要で、「Transformerベースの大規模言語モデル」が現在の主流と押さえればOKです。