Transformerは、2017年にGoogleが発表した論文「Attention Is All You Need」によって提案された深層学習モデルであり、現在の生成AIと大規模言語モデル(LLM)の基盤を成すアーキテクチャです。これ以前の自然言語処理では、RNNやLSTMのような「単語を順番に処理する」仕組みが主流でしたが、Transformerはそれらを完全に置き換え、高度な文脈理解、長文処理、圧倒的な学習効率を実現しました。
Transformerの中心的な革新は、Attention(注意機構)、とくに Self-Attention(自己注意) にあります。これは、文中の単語が他の単語とどのように関係しているかを一度に学習する仕組みです。RNNのように文を逐次的に読むのではなく、Transformerは文章全体を「一気に」読み込み、文脈的なつながりを同時に把握できます。そのため、長距離依存関係──たとえば文頭の主語と文末の述語の関係──を正確に処理できます。
Self-Attentionの仕組み
Self-Attentionでは、各単語が「Query(質問)」「Key(鍵)」「Value(値)」という3種類のベクトルに変換されます。モデルはQueryとKeyの類似度を計算し、「どの単語にどの程度注意を向けるべきか」を決定します。そしてValueを重み付けして合成することで、文脈情報を反映した新しい単語表現を生成します。
この仕組みにより、
- 文の構造
- 単語間の意味関係
- 長文の論理的流れ などを柔軟かつ効率的に学習できます。
Multi-Head Attention:複数の視点を同時に持つ
Transformerはこれを1つだけでなく、複数のSelf-Attentionを並列に走らせる Multi-Head Attention を採用します。各ヘッドは語彙的関係、文法構造、意味役割など異なる観点から文を解析し、最後に統合します。
この多視点性が、Transformerが「文章の豊かな意味構造」を把握できる理由です。
Positional Encoding:語順をモデルに伝える
Attentionは語順を考慮しないため、Transformerは「Positional Encoding」という位置情報を単語に加算します。これにより、モデルは単語が文のどこに現れたのかを理解できます。
エンコーダとデコーダ
Transformerはもともと
- エンコーダ(入力の理解)
- デコーダ(出力の生成) の2部構造として設計されました。
しかしLLM(GPTなど)は、文章生成に特化した デコーダのみの構造 を採用しています。これにより「次に続く単語を順に生成する」という生成タスクに非常に適したモデルになりました。


コメント