代表的なニューラルネットワーク

ニューラルネットワークは、人間の脳の神経回路をヒントに設計された計算モデルであり、特定のタスクに適応するために多様なアーキテクチャが存在します。それぞれの構造には得意分野があり、画像・音声・言語・時系列データなどの性質に合わせて最適化されています。以下では、代表的なニューラルネットワークを体系的に紹介します。

1. パーセプトロン(Perceptron)

最も基本的なニューラルネットワークの単位で、複数の入力に重みを掛け合わせ、活性化関数を通して出力を決定します。初期のニューラルネットワーク研究において中心的な役割を果たしましたが、線形分離しか扱えないという限界がありました。この欠点を解消するために、多層構造(MLP)が登場しました。

2. 多層パーセプトロン(MLP:Multi-Layer Perceptron)

複数の隠れ層を持つ全結合型ネットワークで、非線形関数を用いることで複雑な関数表現が可能になります。

特徴:

  • あらゆるデータ形式を扱える汎用モデル
  • しかし画像や音声などの空間・時間構造を直接扱うのは苦手

用途:

小規模な分類問題、表形式データ、単純な回帰分析など。

ディープラーニングの初期にはMLPが主流でしたが、その後、構造を活かした専用ネットワークが誕生していきます。

3. 畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)

CNNは画像認識に革命を起こしたモデルで、画像の「局所パターン」を捉えるために畳み込み層を使用します。

特徴:

  • 画像の空間構造を保持したまま特徴を抽出
  • 低レベル特徴(エッジ、模様)から高レベル特徴(物体の形状)を階層的に学習
  • パラメータ効率が良く、高精度な画像認識が可能

代表的なモデル:

  • LeNet(手書き文字認識の先駆け)
  • AlexNet(2012年のブレークスルー)
  • VGG、ResNet(より深い構造を実現)

用途:

画像分類、物体検出、医療画像解析、顔認識など。

CNNは視覚AIの基盤となり、今日の多くのVisionモデルの基礎となっています。

4. リカレントニューラルネットワーク(RNN:Recurrent Neural Network)

時系列データのために設計されたネットワークで、出力が次の時間ステップにフィードバックされる構造が特徴です。

特徴:

  • 過去の情報を保持しながら順に処理できる
  • 自然言語処理や音声データに適している
  • しかし長期依存が苦手(勾配消失問題)

RNNは時系列処理の基本でしたが、限界を克服するために改良版が登場します。

5. LSTM / GRU(長期依存を扱えるRNN)

LSTM(Long Short-Term Memory)

「記憶セル」と「ゲート構造」により、長期的な情報を保持できるようにしたモデル。

GRU(Gated Recurrent Unit)

LSTMを簡略化し、高速に学習できる構造。

特徴:

  • 長期依存性を扱えるため、文脈理解が必要な言語処理に強い
  • 翻訳、音声認識、文章生成などで広く利用

Transformer登場以前、NLPの標準モデルでした。


6. Transformer(2017年の革命的モデル)

Transformerは自己注意機構(Self-Attention)を用いることで、RNNのように逐次処理せずに全体の文脈を同時に扱えるモデルです。

特徴:

  • 文中のどの単語同士が重要かを学習できる
  • 並列計算が可能で、超大規模学習に適する
  • 長い文脈を高精度で理解できる
  • 画像、音声にも応用可能な汎用性

代表的なモデル:

  • BERT(理解に強い)
  • GPTシリーズ(生成に特化)
  • Vision Transformer(画像にも適用)

Transformerは、現代の生成AI・LLM・マルチモーダルAIの中心技術となっています。

7. GAN(敵対的生成ネットワーク)

GAN(Generative Adversarial Network)は、生成モデルの代表で、

  • データを生成する「生成器(Generator)」
  • そのデータが本物か偽物か判定する「識別器(Discriminator)」 が競い合う(敵対する)仕組みで学習します。

特徴:

  • 極めてリアルな画像生成が可能
  • Deepfake技術の基盤
  • データ拡張にも使える

用途:

画像生成、アート制作、異常検知、動画変換など

最近はDiffusionモデルに主役の座を譲りつつありますが、GANも依然として強力な生成手法です。

8. 自己符号化器(Autoencoder)

入力データを低次元(潜在空間)に圧縮し、再構成するモデルです。

特徴:

  • 本質的な特徴だけを抽出できる
  • 次元圧縮や生成にも利用可能

用途:

異常検知、ノイズ除去、データ圧縮、表現学習など。

9. Diffusion Model(拡散モデル)

Stable DiffusionやDALL·E などで使われる最新の生成モデル。

特徴:

  • ノイズから画像を徐々に生成する
  • 高い品質と柔軟性
  • GANより安定して学習できる

生成AIの中心技術として急速に広がっています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次