対話型AIを支える「Transformer」

「AIの最新トレンド」のような情報を目にすることが増えて、正直「AI疲れ」を感じています。常に話題のAIに乗り換えなくてもいいでしょうか?

中西

はい、それでいいと思います。ChatGPTをはじめとする対話型AIを支えているのは、「Transformer(トランスフォーマー)」という技術です。

Transformerは2017年にGoogleの研究チームが発表したもので、このおかげで、私たちは対話型AIととても自然な感じでやり取りができます。裏側で同じ仕組みが動いている以上、まったく異なるものではないんですね。

 

ChatGPTの仕組みを知ることは、他の対話型AIを理解することにもつながるんですね。
ここ数年で「AI時代」と言われるようになりました。TransformerをベースにChatGPTが生まれたことが、大きなインパクトだったということでしょうか?

中西

私の見方でお話しますと、2022年にChatGPTがリリースされるより前、2000年代後半から2010年代にかけてずっと「第3次AIブーム」であると言われていました。ディープラーニングが出てきて、画像認識がすごくスムーズにできるようになったんですね。それで研究者の間では、これは本命だというふうに。

そして、私たちがふだん話しているような自然言語を扱う方法もいろいろ出てきました。その辺りで潮目が変わったかな、と私は思ってます。

 

使う側では「急に広まった」と感じていますが、そうではないと。

中西

そうですね。Transformerは確かに画期的な技術です。ただ、突然現れたというより、それまで積み重ねられてきた研究の延長線上にあるものだと考えています。ChatGPTの革新はTransformerだけではありません。その前に、「言葉を意味ではなく統計として扱う」という大きなゲームチェンジがありました。

 

どういうことですか?

中西

以前は、自然言語を扱うには文法が必要だとされていたんです。それで、言語学者も一緒に勉強していました。その後に、統計的に処理したほうがうまくいくと言われ出したんですね。

人間は言葉の意味や文法を考えますよね。でもAIはそうではなく、言葉を数値に変換して扱います。そして、どの言葉とどの言葉が近いのかという「類似度」を計算しているんです。

 

AIは「似ているか」を計算している

類似度?

中西

たとえば「りんご」と「なし」は近くて、「りんご」と「自動車」は遠いですよね。

 

どれくらい似ているか、ということでしょうか。

中西

そうです。AIの内部では言葉をそのまま扱うのではなく、「トークン」という最小単位に分割して処理しています。そのうえで各トークンを「ベクトル」と呼ばれる数値の集まりに変換し、どの数値が近いのか、いわば「近接するデータを探し当てるゲーム」をくり返しているようなものだとイメージしてください。

 

比べられるようになりますね。

中西

はい。これだけ聞くと「そんな単純な仕組みで会話が成立するのか」と疑問に感じるかもしれませんが、それを天文学的な規模のデータで実行しているのが、ChatGPTなどの対話型AIの頭脳であるLLM(大規模言語モデル)です。

そして、「行列」は複数のベクトルをまとめて扱ったり、別の形に変えたりするのに使えます。行列は、どの情報を強調するかという「重みづけ」も担っています。

かつての「りんごと言われたらこう返す」といった人間が定義したルールベースの仕組みよりも、結果的にはるかに精度の高い、自然な応答が可能になりました。これが現在のブレイクスルーの起点だと私は考えています。

 

なるほど。言語学者に言葉を「教えられる」のではなく、類似度で判断しているんですね。

中西

ただ、今だからこそ言語学者と一緒にやる意義はあるかもしれないんですね。統計的手法にも限界はあるので。99を100にするだけの話かもしれないんですが、その1%のところで言語学、論理学が重要になってくるかと思います。

 

「ありがとう」は無駄なのか

すると、AIは意味を理解しているわけではないんですね。私たちが何かを発言したり決めたりするとき、「正しいかどうか」を気にしますよね。でも、AIはそういうことを考えていない?

中西

人間が言う「正しさ」とは違います。類似度が近くて、「もっともらしさ」がある状態というのが正しさになるので。だから、ハルシネーション(*1)と思われる文章も、AIの内部では高確率な出力として生成されますが、人間社会の事実確認では誤りになることもあります。

 

AIの嘘や間違いに気づくと、こちらは「信じられない」と不安になるのに…。

中西

人間の社会では、それは内容として間違っているというだけの話なんです。もちろん、情報をどんどん入れていけば、答えの精度も上がっていくと思います。でも、確率的に文章を生成するLLMである限りは、少なからずハルシネーションを完全にゼロにするのは難しいです。

だから正しいかどうかは人間の価値観で判断しなきゃいけないですし、間違いだったとしても、AIの内部では、与えられた文脈に対して高確率な出力として生成されていると考えた方がいいとも思います。

 

そうなると、やっぱりAIに「ありがとう」というのは無駄なんでしょうか。

中西

挨拶をすべきかどうかは、難しいところです。実際、挨拶だけでLED電球を3分間点灯できる電力が消費されるという試算を示した研究があります(*2)。

一方で、入力の文体によっては、出力の文体や推論の進め方に影響することがあります。
AI側も、入力された言葉遣いや文脈によって、応答上の「ロール」を形成します。「ロール」を決めることで、回答の質を改善できる場合があります。

 

こちらの気分の問題だけでなく、回答の質にも影響することがあるんですね。中西さんは『ChatGPTはどのように動いているのか?』という本を書いていますよね。生成AIというとプロンプトが話題になることも多いですが、仕組みを知ることでAIとのコミュニケーションの取り方もわかるなと思いました。

中西

はい、私の本は少し珍しい本だと思います。 今、ChatGPTやGemini、Claudeについての本は、プロンプトや設定をどうするかが紹介されていることが多いですよね。そういう本を見ると、みなさんがふだん使う時のプロンプトよりも、とても長いプロンプトになっています。

 

呪文のような。

中西

なぜそんなに長くなるのかというと、AIが言葉を数値化し、類似度によって文脈上の近さやもっともらしさをもとに生成しているからです。仕組みを知るとそれが直感的にわかるので、「なるほどね」となると思います。専門家でなくても、精度の高い回答を引き出すプロンプトを自ら構成できるようになるんですね。

また、ChatGPTなどの対話型AIは、単なるツールとして利用するだけでなく、新たなサービスを創出するための基盤としての側面も持っています。これからの日本の産業を展望したとき、LLMの構造を理解しておくことは、次世代のビジネスを設計するうえで大きな強みになるだろうと思います。

 
中西さんの著書。数学の知識なしに、AIの仕組みの基本を理解できる。『ChatGPTはどのように動いているのか?』(翔泳社)

ChatGPTをはじめとした対話型AIの裏側について伺った前編はここまで。後編では、AIをより活用するための力と、AIが何でもやってくれる時代に人が「やりたいこと」について考えます。お楽しみに。

※1:
事実とは異なる情報や架空のできごとをAIが出力する現象
※2:
Julien Delavande, Regis Pierrard, Sasha Luccioniによる論文『Julien Delavande, Regis Pierrard, Sasha Luccioniによる論文『Small Talk, Big Impact: The Energy Cost of Thanking AI』』

[取材・文]樋口 かおる