Tutty

Posted on Aug 27, 2023 • Edited on Jun 16, 2025

Sentiment Analysis in a Forensic Timeline With Deep Learning

#nlp #deeplearning

選定理由&所感

Forensic Timeline というニッチ分野におけるIEEE論文。ドメインはセキュリティ系。

Paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9047947
Code: N/A

企業不正検知では時系列相関分析は有効なアプローチで、不正会計領域[Ghimire2023], サイバー領域[Silalahi2023]など多数ある。

概要

【社会課題】
セキュリティインシデント後のデータ分析で、重要なイベントやアクティビティを効率的に特定することは、フォレンジック調査者にとって時間とコストのかかる作業である。

【技術課題】
ログファイルから取得したイベントを効率的に識別・解析する方法が不足している。特に、どのログメッセージが実際に調査の関心を持つイベントを示しているのかを判断することが難しい。

【提案】
ログメッセージから興味のあるイベントを自動的に抽出するために、コンテキストとコンテンツのアテンションモデルを組み合わせて、ログ内のアスペクトタームとその感情値を識別する深層学習技術を提案した。

【効果】
初期テストでは、F1スコアで98.43%、精度で99.64%の高いパフォーマンスが達成された。本技術によってフォレンジック調査の大幅なコスト削減が見込まれる。

Context and content attention model for forensic timeline

Overview

全体像を図２に示す。学習ステップは前処理によって正例と負例を含むサンプルを抽出後に、単語埋め込みが行われ、モデルの学習へ使用される。推論ステップではフォレンジック対象のディスクからまず全体のタイムラインが構築され、これに対して学習済みモデルを使用してハイライトすべきイベントが抽出される。

Preprocessing

ログメッセージの感情値を取得するために、各ログエントリーは別々のエンティティに分割する。ログエントリーによく見られるエンティティには、タイムスタンプ、ホスト名、プロセス名、特定のイベントに関する短い説明がある。図3はログエントリのエンティティ解析プロセスの例である。
解析にはnerlogparserツールを使用した。これは、双方向の長期短期記憶という事前学習済みの深層学習モデルを使用して、ログエントリ内の各エンティティを自動的に分割することができる。nerlogparserの出力は、ログファイル内のすべてのレコードのエンティティ名と値を含むJSONファイル、または辞書データ構造で出力される。

Word Embedding

単語埋め込みはGloveを使用した。長いログは切り詰め、短いログはパディングを実施して、長さを揃えた。

Model

context attentionは図４に示すアーキテクチャである。

content attentionは図５に示すアーキテクチャである。

最終的にsoftmax層を通じてポジティブ、ネガティブに対する分布を得る。

Build Timeline

最初のタイムライン構築にはplaso(旧log2timeline)を用いる。検出されたタイムスタンプを用いて時系列でソートされたcsvファイルを得る。
plasoツールによって生成されるCSVファイルには、日付、時刻、ソース、タイプ、説明など、17の事前定義された固定フィールドが含まれる。感情分析では、システムからの特定のイベントの主要なメッセージと説明を含む「説明」フィールドをモデルへのインプットとする。法医学的なタイムラインを構築する際、ログエントリを解析するためにnerlogparserツールは使用しない。タイムラインの視覚化には、Timesketchを使用する。

Experiment

Casperオープンデータセットでの比較が表２である。従来手法と比べてもSOTAである。

Timesketchでの表示結果は図７である。青色はアスペクトワードを、赤色はその感情を示している。DFRWS 2009のケースでは、ユーザーが違法なファイル（このケースでは薬のレシピ）を転送した疑いが持たれている。「goatboy」というユーザーがMardi Grasの画像とビデオライブラリのサブスクリプションと引き換えにこの違法な薬のレシピファイルを持っている。

DEV Community