「大規模言語モデルは新たな知能か」を読みました
感想
大規模言語モデル周りの話を、非常に平易な説明で学ぶことができた。ChatGPTをきっかけにMLを学ぶ人の入門書として良さそう。短い時間で読めるのも良い。
創発の原因の仮説や、本文中(In-Context)学習をself-attentionが実現していることなど、知らないことも学べた。
引用文献を載せてくれるとより良かった。(分野の進歩の速さから、あえて外したのだとは思うが)
面白かった部分
創発が起きる原因の仮説 (p80)
モデルを大きくすると問題が急に解けるようになる、創発という
原因は解明されていないが、大きく二つの仮説がある
- 宝くじ仮説
- 当たりのサブネットワークが存在し、パラメータ数が増えると見つけられる確率が上がる
- 構成属性文法仮説
- 言語は、複数の要素から構成される(例えば単語が組み合わさり句を構成する)ため、構成性が存在する
- データが構成性を持つ場合
- プロンプトで指示をだし、その後続を予測する際は、
- プロンプトの背後にある構造表現が見つけられればうまく予測
- そうではない場合は予測は難しい
- プロンプトで指示をだし、その後続を予測する際は、
- このことが情報理論を使って証明可能
- データ量やモデルを大きくすると、ある段階から突然背後にある構造を見つけられる
アレックスネットの研究者は現在OpenAIにいる (p102)
- アレックスネットの研究構想の指導者が今オープンAIにいるのは熱い。
- 大きなニューラルネットワークを大きなデータセットで単純だが正しい学習則で学習することが大切だとアレックスネットのタイミングから考えていたらしい。
モデルサイズが大きい方が汎化性能が高くなる理由の仮説 (p105)
- ディープラーニングにおいて、モデルサイズが大きい方が汎化性能が高くなる。理由を説明する仮説がいくつか存在する
- 宝くじ仮説、大きなモデルは最初から上手くいくサブネットワークを持っていて、それを掘り出す
- 平坦な最小解仮説、局所最適解ではなく、パラメータの変化に対して目的変数の値の変化が緩やかである性質を持つ=汎化している。大きなモデルを勾配降下法で最適化した場合、平坦な最小解に到達する可能性が高くなることを理論的に示せる。
本文中(In-Context)学習はself-attentionにより実現されている (p114)
- CoTや、プロンプトに例題を与えた場合などは、大規模言語モデルがあたかも改めて学習しているように見える。これを本文中(In-Context)学習と呼ぶ。
- 学習した内容とは別に、処理内容から学習する
- しかし、大規模言語モデルの推論時はパラメータが固定。
- どうやって処理内容から学習している?
- 自己注意(self-attention)機構が実現、自己注意機構は式変形をすると、重みパラメータを一時的に変えているとみなせる
- そして、大規模言語モデルに使われている自己注意機構は、パラメータを変えて学習した場合と同様に、指示や再生しているデータにあわせて、モデルを急速に適応させていくことが分かった
- 具体的には、勾配降下法と同じ効果をシミュレーションして、次の単語を予測する
- このメタ学習により、分布外汎化を達成できる