選定理由
MSR(Microsoft Research)の研究、あのYoshua Bengio氏も共著ということで注目した
paper: https://arxiv.org/pdf/2202.13914.pdf
Code: https://github.com/McGill-NLP/polytropon
概要
[課題] タスクやデータ分布の変化に対してロバストなMTLを行いたい
[従来] タスクに対し明示的スキルを組み合わせて解く方式(skill方式)とタスク間で表現学習された知識を共有する方式(sharing方式)がある。前者ではスキルに対するエキスパート知識が必要であり、後者ではタスク数が増えるに従ってモデルパラメータが増大したり新しいタスクに対する対応には再学習やドメイン適応等が必要となる欠点があった。
[提案] 各タスクは再利用可能な潜在的スキルの組み合わせによって解かれるという仮定のもと、スキルを組み合わせるMTLの枠組みを提案
[効果]タスクやデータ分布に対する汎化性能が高く、タスク数が増えてもモデルパラメータが増大しない。実験では強化学習とFew-shot Adapatationの実験でベースラインを超える性能を確認。
潜在的スキル組み合わせMTL
各タスクは再利用可能な潜在的スキルの組み合わせによって解かれると仮定する。スキルセットを組み合わせる行列Zを推定することで各タスクを解くのに必要なスキルの組み合わせ方を学習する
再利用可能な潜在的スキルの組み合わせには以下のグラフィカルモデルを仮定。xは観測、yがラベル、τがタスク、Sがスキル、Zはタスクとスキルと結びつけるタスク数×スキル数のバイナリ行列、αはバイナリ行列に対する事前分布、φは特定スキルに関するモデルパラメータである。
バイナリ行列のような離散的な分布は微分不可能であるため、End-to-Endの勾配降下法の枠組みで学習することはできない。そこで、バイナリ行列に近い信号を表現可能かつ微分可能なGumbel-sigmoidによる定式化をおこなっている(以下)
Inductive Bias
学習が失敗する典型的パターンとしてバイナリ行列Zが高エントロピー、つまりスパースに乏しい行列が学習されてしまうことが考えられる。これに対処するためにIndian Buffet Processによる Inductive Bias(問題が持つ固有の構造が解けるように制限をかけること) を導入し、バイナリ行列のスパース性を高める正則化として利用している。αはIBPにおけるハイパーパラメータである。
又、φよりもZに対する学習率を高めることでもInductive Biasの効果が得られる。(Two-speed Learning Rateと呼んでいる)
実験
160個のNLPタスクを内包するCrossFitでのFew-shot AdaptationにおいてSkilled方式は従来のMTLで主流であったShared方式やタスク別での学習(Private方式)より大幅な性能改善を示した。なお、Shared方式の場合はZは1×1の単位行列となる。
学習されたスキルに関する分析
DiscreteはZのエントロピー、SparsityはZのゼロ要素率、Usageは特定スキルへの偏りを示すエントロピーである。スキル数が多いほどSparsityは下がるのはスキルに多様性があるほど小さいスキルセットで学習しようとすることを示す。