この10年で最も面白いAI技術【GAN】について

こんにちは大澤です．

今回は機械学習の研究分野でとても盛り上がっている「GAN」というAI技術をご紹介したいと思います．(ちょっと今更感ありますが…)

GANとは

2014年にイアン・J・グッドフェロー（Ian J. Goodfellow）らによって発表された，機械学習の新しいアルゴリズムです．

ちゃんとした名前は「Generative Adversarial Networks（敵対的生成ネットワーク）」と言います．

これの頭文字を取って「GAN」ということなのですね．

敵対的"生成"ネットワークというだけあって，何かを生成することができる技術です．

2014年発表から現在に至るまで，毎日のようにGANに関する新しい研究論文が発表されており，AI研究の分野ではとても盛り上がっています．

そしてこのGANはヤン・ルカンというAI研究者からこのように評されています．

"This, and the variations that are now being proposed is the most interesting idea in the last 10 years in ML, in my opinion."

「機械学習において，この10年で最も興味深いアイディアだと思う」

このGANは何がそんなに面白いのでしょうか．

GANでできること

GANのアルゴリズムなどの難しい説明はさておき，とりあえずどんなことができるのかをご紹介します．

まずはこちらの画像を見てみましょう．

f:id:kyoshi0000:20201002151344p:plain

カバンの線画ですね．

このカバンに色を付けてリアルなカバンを描きあげたいと思います．例えばこんなものはどうでしょうか．

f:id:kyoshi0000:20201002151136p:plain

すてきなカバンですね．使い込まれた革製品のような風合いを見事に表現していますが…実はこれ，GANによって着色がされています．

f:id:kyoshi0000:20201002152327p:plain — 引用[Image-to-Image Translation with Conditional Adversarial Networks]

つまりINPUTとして線画を与えると，それに対応したカラー画像を自動で生成してくれるわけです．

これはpix2pixと呼ばれており，これ以外にも様々なことができます．論文の中でいろいろな生成パターンを見せてくれています．論文の中身は英語なのですが，画像がたくさんあるのでそれを見るだけでも割と楽しいです．

また，上記のように2つの対応した画像から学習するタイプではなく，「教師なし」つまり人が正解データを直接与えずとも2つのドメインの特徴を入れ替えることができるcycleGANというものもあります．

f:id:kyoshi0000:20201007095444p:plain — 引用[Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks]

こちらのすごいところは「とりあえずシマウマの写真をたくさん集めてくる」「とりあえず馬の写真をたくさん集めてくる」それだけで上記の入れ替えが可能となるところです．

なんとなく「GANってすごいな」というのが伝われば幸いです．ちなみにpix2pixに関しては，こちらのサイトで簡単に試すことができます．

Image-to-Image Demo

線画から「猫」を生成できるとのことだったので，こんなクリーチャーを生み出して遊んでました．

f:id:kyoshi0000:20201002155445p:plain

毛ガニです．ちゃんと目の部分も認識してるところがホラーですね．

ともあれ，数年前までは「単純作業はAIに任せ，人は創造的な作業を担当するべきだ」などと言われていましたが，このGANというアルゴリズムが誕生したことで，AIでも創造的な作業が可能になったわけです．

GANの仕組み(簡単ver.)

GANの面白いところは上記のように絵が書けるだけではありません．学習方法もちょっと変わっています．

以前瓜生さんが少しGANに触れた記事を書いていましたが，GANの学習方法は「絵画の贋作作家と鑑定士」に例えられることが多いです．

贋作作家が本物を真似た絵を複数描き，本物に混ぜて鑑定士に渡す

　↓

鑑定士は複数の絵の中から贋作と本物を見極める

　↓

その結果を元に贋作作家はより本物に近い贋作を複数作り上げ，本物に混ぜて鑑定士に渡す

　↓

鑑定士はより見分けづらくなった中から贋作と本物を見分ける

　↓

以下ループ

これがGANの簡単な仕組みです．つまりGANでは「生成モデル（贋作作家）」と「分類モデル（鑑定士）」の異なる2つのモデルを交互に，しかも競い合うように学習させているわけです．これが”敵対的”と言われる所以なのですね．

ただ，この学習はとても繊細なパラメータチューニングが必要になってきます．なぜなら「贋作作家と鑑定士のどちらか一方がとても優秀（劣っている）」という状況を作ってはいけないからです．

例えば鑑定士が節穴で贋作作家の作った偽物をなかなか見抜けない場合，駄作であった場合でも本物と判定してしまうので，贋作作家の技術は向上せずに駄作ばかりを生み出します．

逆に鑑定士が優秀すぎる場合，贋作作家がどんな作品を作っても偽物と見破られてしまうため，贋作作家としてはどのように改善すれば本物に近くなるのかがわからないままになってしまいます．

つまり2つのモデルのパワーバランスが大切になってくるということなのです．