Survey: Transformer-Based Named Entity Recognition on Drone Flight Logs to Support Forensic Investigation

Tutty - Apr 25 '23 - - Dev Community

選定理由

ドローンフォレンジックという新しいドメインだが、法規制の解除によって社会需要は増加すると予想。対象タスクは自然言語処理の固有表現抽出。

Paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10007817
Code: https://github.com/swardiantara/droner-cosine

概要

[社会課題]ドローンの増加に伴い、ドローンの事件や攻撃の発生数が増えていることから、事故の防止、原因の調査・究明の機会が増加している。事故発生時にはフォレンジック調査が行われ、事件のシナリオを明らかにし、リスクを軽減し、調査結果の報告が必要となる。
[技術課題]ログメッセージとタイムスタンプから構成される法科学的タイムラインを構築するためにフライトログデータシーケンスの文脈依存性を捉える必要がある。
[提案]自己注意機構にてドット積の代わりにコサイン類似度を使用したTransformerエンコーダを提案し、これに対しCNN文字埋め込み、BERT単語埋め込み、Transformerエンコーダ、およびCRFデコーダを持つ新しいNERアーキテクチャを提案した。又、ドローンのフォレンジックというドメインにおいて、6つのエンティティタイプを定義した新しいNERデータセットを構築した。
[効果]過去のベースラインモデルを超え、F1スコアが91.348%となった。

提案内容

ドローンのフォレンジック分野において、新しいNERデータセットを構築

実験結果と分析

前処理として収集されたログメッセージをトークン化して、大文字小文字を区別するためにオリジナルのメッセージを保持し、ドットとカンマを文脈の区切り役として保持しながら、CoNLL形式に変換することで、標準的なNERデータセット形式に変換し、等しい長さのトークンとラベルを埋め込み層に入力して表現特徴ベクトルを取得する。

fig10

図10は他ベースラインモデル比較である。比較対象はCNN-BERT-Scaled Transformer、AdaTransBERT-Unscaled Cosine、AdaTrans-BERT-Scaled AdaTrans、AdaTrans-BERT-BiLSTMのエンコーダーモデルで、すべてについて、デコーダーとしてCRFが使用されている。収束速度に関して、提案手法(Cosine)はTransformerおよびAdaTransと同様に速く収束した。図10を見るとRecallに関して提案手法(Cosine)はTransformerを超えているが、F1では劣っている。一方で、未スケーリングのAdaTrans attentionは、AdaTransを文字埋め込みとして、BERTを単語埋め込みとして使用し、90.514%のF1スコアで第三位に位置している。これは、データセットが平均的にトレーニングデータとテストデータの両方で、6.3語と8.8語の長さしかないため相対アテンションメカニズムが機能しにくいためであると考えられる。

fig1

上記は固有表現抽出をしたサンプルである。Component, Action, Parameter,
Function, State, そして Issueの6種類のエンティティである。

課題としてVTO Labs Drone Forensic データセット以外に、15以上の異なるモデルと20以上のデータセットからも、2000未満のログメッセージしか見つからず、さらに、データセットには正常パターンのみで、フォレンジック調査、発見、および報告の観点から提案手法をテストするための異常パターンが存在しない点が挙げられる。

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .