OpenAI社のチャットGPTブームを皮切りに、生成系AIへの注目が高まっている。
チャットGPTをビジネスに活用する企業が続々と出現する一方で、逆にAIが仕事を奪ってしまうのでは、との脅威論も出てきた。
生成系AIを活用するのも、リスクを回避するにも、全ては正しい知識が土台にあってこそだ。そもそも生成系AIとは何か、どんな原理で動くのか、なぜGPTが急に注目されるようになったのか、仕事ではどこまで使って良いか…。
ビジネスパーソンが抱えがちな疑問を、巨大言語モデル(LLM)に特化したスタートアップを立ち上げたSpiral.AIの佐々木雄一・CEOに聞いた。
―「生成系AI」という言葉が話題です。これはどういうものなのでしょうか。
言葉の通り、何かを生み出すAIです。これまでのAIは「認識」が主な作業でした。例えば自動運転技術では、人間を認識して車が停止する、という具合です。
それに対して生成系AIは「生み出す」ところに違いがあります。大きく分けて2種類あり、画像を生み出すAIとチャットGPTのような文章を生み出すAIです。
―佐々木さんが取り組んでいるのは巨大言語モデル=LLM(Large Language Model)です。生成系AIとは異なるものなのでしょうか。
LLMは、生成AIの中でも文章特化版のようなイメージです。
文章を生成するテクノロジーは、最初に「巨大(Large)」がつかない言語モデル(LM)として以前から存在していました。ただしこれまでの言語モデルは、一目見た瞬間に「ダメだね」と違和感に気づくようなクオリティの低い文章しか生み出せず、長らく不遇の時代を送っていました。
それが、「巨大」になった途端に振る舞いが明らかに人間に近づいたのです。このパラダイムシフトが起きてから「巨大言語モデル=LLM」という特定の名前で呼ばれるようになりました。
GPT-3が出現したのは2020年ですが、急にクオリティが人間に近づいたため研究者らの目の色が変わり始めました。私にとっても見方を変えるきっかけでした。
―そもそもチャットGPTのようなLLMは、どうやって人間のような文章を生み出しているのでしょうか。
それまでの文脈を踏まえて、一単語、一単語生み出しています。チャットGPTを使ったことがある方ならば、単語が順番に「パパパッ」と並んでいくのが思い浮かぶでしょう。まさにあの順番でGPTも推測をしているわけです。
ではどうやって推測をしているかと言うと、「前の文章」をGPTが見て「次の単語」として来そうなものを予測します。例えば「明日の天気は」の次にきそうな単語は「晴れ」「雨」「曇り」などですよね。「槍」や「カエル」はおそらくないでしょう。こうした予測を繰り返す。極めて単純なのです。
―生成系AIがここまで騒がれているのは、チャットGPTの影響ですね。
その通りです。チャットGPTに搭載されているものよりも一つ前の「GPT-3」モデルでも、英語ではクオリティの高い回答が出せていて、海外では盛り上がりを見せていました。ただし、日本語ではまだクオリティが低く普及していませんでした。
チャットGPTは「GPT3.5」というモデルを組み込んでいます。2022年11月に出た瞬間に、日本語の性能が圧倒的に高くなっていたことが分かり、日本のユーザーにも広まっていきました。
GPTがここまで騒がれるようになったのは単純に性能が頭一つ飛び抜けていたからです。モデルサイズ(編注:AIの頭脳に該当し、数値が大きいほど性能も高まるとされる)を大きくすれば性能が上がる側面があり、先陣を切ったのがOpenAIです。言語モデルを作っている人は世界中に沢山いますが、OpenAIが一番最初に人間をして圧倒的に「凄い」と思わせるところまで辿り着いたわけですね。
―英語は元々クオリティが高く、チャットGPTが登場した段階で日本語の性能も向上したのですね。AIにとっても日本語のハードルは高かったけれど、技術の進歩で対応できた…ということでしょうか。
研究者によって見解が分かれるところではありますが、英語も日本語も大差ないようです。言語の一つとしてプログラミング言語を入れてみたら学習してしまうくらいですから。
どちらかといえば学習データの差ではないでしょうか。これはあくまで推測ですが、GPTが学習するデータは大半が英語で、日本語などの言語は1%も入っていなかったのではと思います。
比率は変わっていないかもしれませんが、全体の学習量を増やしたところ、全ての言語を流暢に操れるようになった、ということではないでしょうか。
―ここを超えたら一気に流暢になる、という閾値のようなものがあるのでしょうか。
あります。モデルサイズが一定の数値を超えたら急に人間らしくなる、という現象が確認されています。アルゴリズム(計算法)は変えておらず、モデルサイズを大きくして学習データを増やしたら急に人間らしさを獲得したのです。
ただ、なぜ人間のような能力を獲得したのか、は未だに謎です。世界中の研究者も後追いで理解を深めているような状況です。「プログラミング言語を学習させたから人間に近い論理性を獲得した」とか「多言語を学習させたことで言語に共通する性質を抜き出せた」などの仮説はありますが、正解はまだ分かっていないのです。
―2020年には「GPT-3」が出現し、2022年には「GPT3.5」が搭載されたチャットGPTが出て、2023年現在では「GPT-4」も話題です。GPTはどのように進化しているのでしょうか。
大事なポイントですね。まず、モデルサイズが大きくなり続けているのは間違いありません。
ただそれ以上に「人間による強化学習」の有無という違いがあります。GPT-3は2021年9月までのネットの情報を学習させただけですが、GPT3.5にするときに、人間を雇って「GPTが作り出した文章が役に立つか、害がないか、真実を語っているか」などを判定させたのです。その結果を反映して再学習させると急に品質が良くなったのです。
この作業、初期には40人を雇って作業を実施したそうです。あれだけの高性能が40人で実現したのであれば、驚きです。
チャットGPTの中身はGPT3.5ですから、チャットGPTがバズったのは人間のフィードバックを得たおかげでもあります。
―GPT-4はアメリカの司法試験の模擬試験で上位10%に入る成績を収めました。そこまでの飛躍はどのようにして実現したのでしょうか。
詳細に公開はされていませんが、仕組みはこれまでと同じではないでしょうか。モデルサイズは大きくしたと思いますが、強化学習についてはどうやったのか。
チャットGPTが公開され、世界中のユーザーが利用することになりました。ユーザーが入力した情報や「いいね」ボタンを通じた反応など、世界中の人の手を借りて学習させた可能性もあるでしょう。ただ、実際のところは分かりません。
―生成系AIがある種、ブームになっています。AIブームは過去にもあったと思います。今回もいずれ盛り下がって、一過性のブームで終わる可能性はありますか。
今が盛り上がりすぎな側面もありますから、トーンダウンすることはあるでしょう。ただし、本質的にはこれまでのAIとは一線を画していて、人間の生活を変えてしまう底力があります。一つのモデルを作ったら、司法試験や医師の国家試験の合格ラインを超えてしまうだなんて、明らかに違いますよね。
人間が望む望まないに関わらず、確実に世の中を変えるツールになるはずです。GPTに対して警戒感を示す気持ちも当然理解できますが、10年後を振り返ったら(AIによって)絶対に何かが変わっている。いち早く乗っかるのが正しい道のように思えます。
―警戒感というお話がありましたが、例えばGPTがネット上に公開された小説などの著作物を読み込んで、誰かが「こんなストーリーの小説を書いて」と指示した場合に、そっくりな物語を出力してしまう可能性はあるのでしょうか。
あります。ただ「どれだけ似ているか」という点で著作権上の扱いは難しいところです。
著作権だけでなく、社会の側で解決すべき問題が出てくると私は考えています。
OpenAIのサム・アルトマンCEOは2016年のブログで、テクノロジーが既存の仕事を代替し、生活のコストを劇的に下げることから、ベーシックインカムの実験をすると宣言しています。
著作権もそうですし、AI失業なども合わせて、社会変革のタイミングに来た以上、社会の側が対応を考えていく必要があると思います。
―チャットGPTを使っていて、社内の機密につながる情報を書き込んでしまったら、それが学習されてしまうリスクはないのでしょうか。
OpenAIの利用規約を読む限り、(チャットGPTの)インターフェースに入力した情報は学習に使われる可能性があります。学習に使われない「オプトアウト」も用意されているのですが、デフォルトでは「使って良い」設定になっているため、その部分を認識できていないのは良くないでしょう。
一方で、日本の企業はリスクサイドを若干強く見過ぎているきらいがあります。利用者のリテラシーが不足するリスクを考えて一律禁止にする気持ちも理解しますが、OpenAI側は正しく使える方法を提供しています。個人的には、正しく使える前提であればそこまでリスクサイドを気にせずにアクセルを踏んでも良いという認識です。
―GPTはスタートアップの間で活用が相次いでいます。その多くが「API」と呼ばれる方法を活用しています。これは安心して使っても良いのでしょうか。
スマホアプリや自社のサービスとGPTの間で、入力した情報のやり取りをする窓口のようなものがAPIです。こちらもOpenAIが提供しています。利用規約を読むと、こちらは学習のための情報収集には使われないとされています。APIを介したサービスを使っている分には、利用規約上は問題ないと言えるでしょう。
―GPTのリスクには「ハルシネーション(幻覚)」も指摘されています。間違った情報を、あたかも真実であるかのように語ってしまうことです。試しに「徳川第16代将軍は」とチャットGPTに聞いたら、誤った回答が返ってきました。これは技術の進歩で解消できるものなのでしょうか。
面白い質問です。確かに今「文京区のおすすめグルメスポットは」と聞いても、存在しない店を教えられるでしょう。ただし、正しい情報を学習させれば正しい情報が出てきます。知らないことを答えないようにしてください、という強化学習で改善されるという話もありますし、徐々になくなっていくものだと思います。
一方で、チャットGPTは「自分が間違ったことを言っている」ことには気付きようがありません。前の文章を踏まえてもっともらしいことを言っているだけだからです。「減らせはするけどゼロにはならない」のかもしれません。もし間違いに気づかせるのであれば外部からのアプローチが必要になりそうです。GPTには自分でインターネット検索をしにいく機能もありますが、難しいところです。
―生成系AIをめぐっては、日本勢が開発に出遅れたという指摘もあります。
第一歩目は出遅れてしまいました。これはもう仕方がありません。ただ、サイバーエージェントやrinna、それにソフトバンクとLINEの共同事業など、作れる会社は日本にもたくさんあります。最初期に必要な費用は30億から100億円と言われています。CVC(用語解説)などを社内に持っている会社であれば法外な金額でもないでしょう。追いつく余地はまだまだあります。
―後発で作るとすれば、勝ち筋はあるのでしょうか。
分野ごとの専門家です。海外の事例では、ブルームバーグが「BloombergGPT」を作りました。チャットGPTに聞くよりも経済のことはBloombergGPTの方が詳しいとされています。
汎用型モデルに限界があることはOpenAIも認めています。社内データを学習させて専門家を作るとか、もしくは法務税務の情報を覚えさせて詳しいものを生み出すとか、空いている場所を埋めるような戦いならば日本にも勝ち筋はあります。「一般化」においてはOpenAIの勝利が決まっていると思います。後発のプレイヤーができるのはドメイン特化型です。
LLMと言ってしまうと、私も「汎用人工知能に近いものを作りたい」という研究者の性が出てしまいます。最近はDomain Specific Language Model=DSLM(ドメイン特化型言語モデル)という言葉を作って、戒めとして自分に言い聞かせています。
※取材は2023年5月18日に実施され、記事は取材時点の情報に基づいている。