生成AI系のサービスをキャッチアップする

生成AI系のサービスをキャッチアップする

生成 AI は産業革命とまで言われています。私は Chat GPT と GitHub Copilot を日常的に(といってもライトユーザーレベルで)使っていますが、それ以外はからっきしです。しばらく自分の仕事にかまけてアンテナを張ることを後回しにしていたら世の中に置いていかれつつあったので、慌ててキャッチアップしておきます。

主に自分向けのメモですので、文章が整理されていないところはお見逃しください。

用語整理 #

モデルという用語がよく出てくるので、先のこの言葉を理解しておきます。せっかくなので Chat GPT に教えてもらいます。

Q. 機械学習において、モデルとはどういう意味ですか?

A. 機械学習において、モデルとは、データから学習し、未知の入力に対して予測を行うための数学的な関数やアルゴリズムのことを指します。つまり、モデルは入力と出力の関係を表現する関数であり、学習データからパラメータを調整することで、未知のデータに対する予測精度を高めることが目的となります。

例えば、犬と猫の画像を分類するためのモデルを作成する場合、多くの犬と猫の画像を用いてモデルを学習させ、そのモデルを使って新しい画像が犬か猫かを判別することができます。この場合、学習されたモデルは、画像を入力として、犬か猫かを出力する関数として表現されます。

Generated by Chat GPT

わかりやすい!

あと、画像生成系関連の用語に関しては、このサイトがまとめてくださっていてわかりやすいです。

画像生成 AI #

Stable Diffusion(ステイブル・ディフュージョン) #

まずは概要から。

Stable Diffusion は、2022 年に発表された text-to-image モデルです。Stable Diffusion は、ランダムノイズを入力として段階的に画像を生成することで高品質な画像を生成する手法を使用しており、GAN(Generative Adversarial Network)という別の画像生成モデルと比較して、より高品質で多様な画像を生成できることが報告されています。

Generated by Chat GPT

基本的に Stable Diffusion の実行環境は自分で用意する必要があります(企業や有志が構築済み環境をクラウドサービスとして公開していることもあります。)。デモであれば次のサイトで試すことができます。Hugging Face というサイト上で Stable Diffusion 開発元(Stability AI)が提供しているものです。

調べてみると、Google Colaboratory(略称:Colab)上に Stable Diffusion web UI を使って環境作成・実行するブログ記事が多く見つかりましたので、こちらに従って試してみます。

具体的な作業手順は以下のような記事が参考になりました。

ということで Stable Diffusion で生成した画像がこちらです。

プロンプトには “sharaku painted by pablo picasso."(ピカソが描いた写楽)と入力しました。

Sharaku by Stable Diffusion

Midjourney(ミッドジャーニー) #

画像生成系 AI サービスです。

Midjourney の Discord サーバに参加して、チャット形式でプロンプトを打ち込むと、AI が画像を生成して返信してくれます。操作方法が独特で面白いですね。

他の人が生成していた画像を掲載します。

プロンプト

scene from the 18th century in Granada fort. A night of revelry and laughter with dancers,light shows, gymnasts

18 世紀、グラナダの砦の風景。ダンサー、ライトショー、体操選手が繰り広げるお祭り騒ぎと笑いの夜

Scene from the 18th century in Granada fort

DALL-E(ダリ) #

画像生成系 AI サービスです。Chat GPT の開発元と同じ Open AI が開発しています。

現在はバージョンがあがり DALL-E 2 が提供されています。有料限定のようなので今回は試しませんでした。

動画生成 AI #

Runway(ランウェイ) #

Runway は サービス名でもあり企業名でもありますが、企業としての Runway は Stable Diffusion の共同開発者でもあります。

動画生成 AI の括りで紹介しましたが、画像生成・編集の機能もあります。多岐に利用できる動画像生成・編集 AI サービスといった感じです。

無料プランもあるようなので、後日にでも試してみようと思います。

文章生成 AI #

NovelAI(ノベルエーアイ) #

こちらは文章生成系 AI サービスです。

NovelAI は、自然言語処理技術を活用した AI 作家ツールです。ユーザーが与えたプロットや設定に基づいて、自動的に物語を生成することができます。NovelAI は、様々なジャンルの小説、物語、またはスクリプトを作成するために利用できます。ユーザーが好みのキャラクターやストーリーラインを入力するだけで、独自の小説を生成することができます。

Generated by Chat GPT

なお現在では NovelAI で画像を生成することも可能になっています。

“A boy meets a girl.” とだけ文章を打ち、これに続く文を自動生成してみました。

A boy meets a girl. A boy falls in love with a girl and promises her forever after. But, as the story goes, that’s all it ever is—a promise. I’ve known for a while now that what I had was never going to be enough.

(日本語訳)少年は少女に出会う。少年は少女と恋に落ち、永遠の愛を誓う。しかし、この物語にあるように、それは約束に過ぎない。私は以前から、自分の持っているものが決して十分なものではないことを知っていた。

これに続く文章をさらに自動生成することもできますので、どこまでも長い文章を作成することができます。試しにさらに自動生成してみたところ、新しい段落に移って、「兄はすべてを手に入れていたが、対して私は何も持ってはいなかった。私の父と母は…」と自分の置かれた状況を悲観的に説明するような文章が出てきました。

モデルの検索サイト #

特に画像生成 AI の場合、どのモデルを使用するかによって生成される画像の指向も大きく変わるわけですが、そのモデルを検索するサイトです。GitHub の AI モデル版といったところ。

Hugging Face(ハギングフェイス) #

画像生成だけでなく色々な AI のモデルがあります。

Civitai(シヴィットエーアイ or シヴィタイ) #

Stable Diffusion のモデルを扱っています。際どい画像のモデルを探しているときはこちらが良いようです。わりと頻繁にサイトがダウンしています。

プロンプトの検索サイト #

文字での指示から何かを生成する AI モデルを “text-to-XXXX model”(XXXX には生成される対象名が入る)と言います。例えば Stable Diffusion で言えば text-to-image model です。ここで入力されるテキストをプロンプトと呼びます。

使用するモデルが同じであっても、どのようなプロンプトを与えるかで結果が大きく変わります。ではどのようなプロンプトを入れると自分の求めている結果が得られるのか、そんなプロンプトを検索するサイトです。

PromptHero(プロンプトヒーロー) #

以上 #

まさに今は雨後のタケノコのように次々と新たな生成 AI サービスが生み出されています。

少し探してみるだけで、ここで紹介した以外にもいくらでも見つかると思います。