岡野原大輔『大規模言語モデルは新たな知能か』

岡野原大輔『大規模言語モデルは新たな知能か』読了。
副題は「ChatGPTが変えた世界」ということで、一応巷にあふれるChatGPT本の一つ、ということになるのかもしれません。
でも、どこかの仕事術の本を焼き直しただけとか、使い方をゼロから解説したような本とは一線を画す内容です。
著者はAI技術で起業した方のようですね。
コンサルとかネットビジネスの人とかでは無いので安心して手に取った次第。
130ページほどの分量でさっと読みこなせるのですが、そのなかで数式を使わずにLLM（大規模言語モデル）について解説していて、これが非常にわかりやすいのです。

ブルーバックスみたいに数式を使わずに科学・技術を解説する本というのは、「わかった感」だけを読者に与えてしまうので有害だ、なんてことを昔駿台物理の坂間勇師が言っていて、それにかぶれた受験生時代以降、学生どころか社会人になってもなんとなくこういう本を手に取るのに罪悪感を持つようになっておりました。
まあ、でも、もうこの歳になったら、とりあえず知識を詰め込むのには良いですよね。
地下の人となった坂間先生も許してくれるはず。

機械学習やディープラーニングなどを、その存在くらいは認識していた、その触りをプログラムで体験してみたりはした、というレベルの外部者からしてもChatGPTに出会った衝撃はあるものです。
なんでいきなりこんなことまで出来るようになった？という。
技術的にどんなブレイクスルーがあって、どういう経緯を経て開発されたものなのか、というところが、どうしたって気になるわけです。
でも、最初にパラパラめくったところでは、純粋にモデルとして解説されているのはいつもながらのニューラルネットワークの話だし、技術史的に書かれているのはアルファ碁の話だし、そんな新しいことは発生して無い？という当初の印象。

読み終えての感想としては、実際のところは、そうとも言えるしそうではないとも言えるようです、というもの。
本書によると、言語モデルのべき乗則の発見というものが鍵だったのですね。

訓練データとモデルサイズを増やしていけば、結果との間にべき乗則が成立するということがわかったのは非常に大きかったと。
金をかければかけただけ、そのリターンは約束されたということになるので。
技術肌の人からしたら面白みのない結論かもしれませんが、起業家・投資家からするとこれほどありがたい話は無いですよね。
これにより、Open AIも確度を持ってGPT-3.5なりGPT-4の開発に進めたということなのでしょう。

それから、もう一つ。
モデルサイズを大きくしていくと、あるときからグンと能力があがることがあるのだそうです。
「創発」と呼ばれるのだそうですが、それまで解けなかった問題が急に解けるようになる、と。
その現象が起きる原因は、まだ正確には解明されていないとのことですが、そのあたりもAIぽくて面白い。

そんなエピソードも詰まっていて、ChatGPTについて少しばかりモデルのことも知っておきたいという人には最適な一冊。