1990年代から2000年代初頭は、まだ「生成AI」という言葉が一般的ではありませんでしたが、土台となる研究が静かに進んでいました。統計的言語モデルが登場し、文章の次に来る単語を確率で予測する仕組みが整い始めます。しかし、この頃のモデルは語彙も少なく、生成される文章は短くぎこちないものでした。
2010年代前半になると、ディープラーニングの進歩によって生成の世界が一気に広がります。画像生成では「オートエンコーダー」という技術が登場し、写真を圧縮・再構成できるようになりました。音声や文章でも、ニューラルネットワークが特徴をつかむようになり、自然さが少しずつ向上します。とはいえ、まだ「本物らしい創作」と呼べる段階ではありませんでした。
2014年、イアン・グッドフェローらが「GAN(敵対的生成ネットワーク)」を発表すると、生成AIの歴史に大きな節目が訪れます。GANは、偽物を作るAIと本物かどうかを見破るAIが競い合う仕組みで、写真に近い画像を生み出す能力が急速に伸びました。この技術は、のちの画像生成AIの基礎として広く利用されます。
2017年には、Googleが「Transformer」という革新的な仕組みを発表します。これは文章の文脈を広く把握できる構造で、ここから自然言語処理の性能が劇的に向上しました。生成AIは、単語の羅列ではなく、まとまりのある文章を作れるようになります。
2018年以降は、大規模言語モデルの時代に突入します。BERT、GPTシリーズなど、巨大なデータを使って学習するモデルが登場し、文章生成の精度が飛躍的に高まります。特にGPT-3以降は、ニュース記事、詩、会話など、幅広いスタイルを自然に生成できるようになりました。
2022年には、Stable Diffusion や Midjourney など、テキストから画像を生成するAIが一般に広まり、生成AIは一気に文化的存在へと変わります。誰でも高品質なイラストや写真風画像を作れるようになり、創作の敷居が劇的に下がりました。
2023年以降は、文章・画像・音声・動画を横断する「マルチモーダルAI」が台頭し、生成AIは総合的な表現能力を持ち始めます。複数のメディアを一体的に扱えることで、対話、設計、教育、クリエイティブ制作など、活躍の場が急速に広がっています。
生成AIの歴史は、急成長の連続に見えますが、その裏側には数十年の研究の積み上げがあります。これからも新しい技術が次々と現れ、創造の形そのものを塗り替えていく流れが続きそうです。


コメント