選定理由
2023年当時 PaperwithCode の Dynamic Link Prediction on Enron Email Datasetで1stだったので選んでみた。
Paper: https://www.ndss-symposium.org/wp-content/uploads/2022-107A-paper.pdf
Paper(ACM): https://dl.acm.org/doi/pdf/10.1145/3588771
Code:
Youtube: https://www.youtube.com/watch?v=1t124vguwJ8
概要
【社会課題】
高度に組織化されたサイバー攻撃が増加しており、それに対処するためには、攻撃者の手口や攻撃の痕跡を早期に検知し、適切な対策を講じることが重要である。その中でも、ラテラルムーブメント(Lateral movement)は、サイバー攻撃において重要なステージの一つであるが、検知が困難である。
【技術課題】
ラテラルムーブメントの検知には、膨大なネットワークログを解析し、不審な接続を見つけ出すことが必要となるが、ログは多くの場合非常に膨大でありシステムによって多様である。又、一般的に不審な接続である異常時データは収集が困難である。
【従来技術】
従来の手法では、機械学習を用いた異常検知に注目が集まっており、グラフ理論や深層学習を組み合わせた手法が提案されている。しかし、システムに依存するデータの分布や膨大すぎるデータが原因となり、モデルの汎用性が不足していたり、処理速度・学習時計算量に課題あった。
【提案】
Eulerというフレームワークを提案。このフレームワークは、グラフニューラルネットワークとシーケンスエンコーディングを組み合わせることで、ラテラルムーブメントの検知を行うことができる。また、Eulerモデルは、グラフ畳み込み層を複数のマシンに分散することができるため、処理速度を向上できる。さらに、Eulerモデルは従来の手法と比較して高い検出精度を示しており、実際のシステムで使用することが可能であることを示した。
【効果】
Eulerモデルは、現在の最先端手法と比較して、高精度で大規模なデータ処理にも対応できることを示した。具体的には、従来のモデルに比べてEnronデータセットにて適合率を0.243から0.986の精度でLateral movementを検出できることを示した。また、実世界のネットワークトラフィックに対しても高い精度を発揮し、実用性が高いことが示した。
提案:Euler
Eulerは過去の時系列グラフの状態に条件付けられた確率関数を学習し、後の時点でのエッジの発生の可能性を決定する。さらに、単に精度が高いだけでなく、スケーラブルなシステムとして分散型学習の構成の提案も含んでいる。
Dynamic link detection(動的リンク検出)は、時間的に変化するネットワークデータから、同時に出現するリンク(エッジ)のパターンを検出するタスクであり、具体的には、ある時間ステップで存在しなかったが、あとの時間ステップで存在するようになったリンクを検出することが目的。このタスクは、社会ネットワーク、センサーネットワーク、インターネットトラフィックモニタリングなどの分野で重要である。link detection(リンク予測)は時刻が少し先のリンク検出といえる。
Eulerでは link detectionは帰納的であり、部分観測されたグラフ(G^)からグラフ埋め込み(Z)を経由し、本来のグラフ(G)を再構築する。一方でlink prediction は演繹的であり、推論されたグラフから未来の観測(G^)を予測する。
実験
Enron10というデータセットはこのリポジトリでも使われている。
ベースラインモデル(VGRNN, EGCN)よりもEulerは高精度に検出・予測ができた。Facebookのデータセットで最も改善幅の大きい4%上昇が見られた。このデータセットは求yラフのエッジ数とノード数が最も多く、スナップショットの数が少ない。さ