Survey: Deep Structural Causal Models for Tractable Counterfactual Inference

Tutty - Apr 4 '23 - - Dev Community

選定理由

ICLの研究、Causal Machine Learning × Computer Visionなので調査してみた。NIPS2020なので読んでみるとかなり基礎理論寄りな印象

Paper: https://arxiv.org/pdf/2006.06485.pdf
Code: https://github.com/biomedia-mira/deepscm

[Liu2022]でも引用されている。

概要

[社会課題]あらゆる科学の問いはその因果構造を明らかにすることにある。因果推論は経済学や解析疫学に適用されてきたが、CV分野への適用は未だ不十分である。
[技術課題]機械学習モデルを因果モデルに統合する手法は提案されておらず、因果モデルは画像や音声などの低レベル信号を統合的に扱うことができない。
[従来技術]関連研究としてCausalGAN[Kocaoglu2018], causal attribution [Parafita2019]があるがabuduction([abductionは科学的推論一般として、演繹(deduction)、帰納(induction)に対する第三の推論であり、帰納のある発展型である。引用])は考慮しておらず、画像生成モデルが因果推論に含まれていない(=つまり因果モデルから統一的なアプローチで画像生成ができない)。結果として学習データに対する外挿ができない。(従来の潜在変数やGAN等生成モデルで生成できるのはあくまで内挿のみである)
[提案]因果の梯子の3つのレベルすべてにおいて、高次元データの学習・推論を可能にする初の手法であるDSCMを提案。(ただし、交絡因子が可観測であるという制約は受ける)
[効果]MNISTをベースに生成した合成データ Morpho-MNIST と実際の脳のMRIスキャン画像のデータセットを用いて複数の評価メトリクスにて実データの再現性評価にて従来手法を上回っている(=よく表現できている)ことを示した。

DSCM (Deep Structural Causal Models)

2.1

Actionは因果推論におけるいわゆる介入操作であり、因果モデルに修正を加えることで交絡因子の影響を断ち切った修正因果モデルを作成する。最後のpredictionはいわゆるモデルパラメータが推論され、事後分布が確定したのちの生成モデルとしての出力処理であり、MCMC等様々なアプローチを用いることができる。

実験

画像因果モデルの効果を検証するために合成データを作成した。

fig.2

図2(c)のような因果モデルを仮定する。ここでtはストロークのthickness, iはintensityを表す。thicknessは交絡因子で、出力画像とintensityの両方に影響を及ぼす。

table.1

確率モデルと変分モデルの差(ELBO:Evidence Lower Bound)、対数尤度、再構成誤差(MAE)で評価した結果は表1であり、DSCM(Full)が最も良くデータを表現できていることがわかる。

fig.4

パラメータに対して介入操作を行ったうえで画像生成したサンプルは図4である。ストロークや太さが変化しているのが観察できる。

fig.5

図5の年齢の増加に伴い脳室がわずかに大きくなり、一方で全体的な脳の体積が減少することを示している(最初の列)。対照的に、脳の体積を直接変更すると、年齢を変更する場合とは逆の効果が脳室に生じる(2番目の列)。脳室の体積に介入すると、より局所的な効果が生じる(3番目の列)一方、生物学的な性別のカテゴリ変数に介入するとより拡散した効果が生じる。各介入後に解剖学的な「アイデンティティ」(例えば、皮質の折り畳みなど)がよく保存されていることに注目。

正しい反実仮想サンプルを生成する能力は、さまざまな応用に大きな恩恵をもたらす可能性がある。例えば、観測データと反実仮想データの差異から、結果の因果的説明が示唆されるため、説明可能性において役立つことがある。また、反実仮想サンプルは、属性の新しい組み合わせなど、観測データの範囲を超えて外挿することができるため、データ拡張にも役立つ。さらに、因果モデルにデータのソースを示す変数を含めることで、対象ドメインに関連した反実仮想例を生成できるため、ドメイン適応にも応用できる。

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .