AI

論文はこちら
DarkBERTとは?
  • DarkBERTとは?
  • DarkBERT活用方法
  • 活用事例
DarkBERT

DarkBERTは、S2Wが保有する膨大なダークウェブデータを利用して学習させた世界初のダークウェブに特化した言語モデルです。言語モデルとは、人の言語を理解し、膨大な知識を事前に学習し、複数の自然言語処理トラブルシューティング能力に優れたAIモデルを意味します。その中でも、DarkBERTは特にダークウェブに存在する非構造化データの処理と分析に優れた性能を誇っています。 他の類似構造のエンコーダ言語モデルは、ダークウェブの非構造化語彙と構造的多様性に苦しんでいますが、DarkBERTは特にダークウェブの違法コンテンツを理解するために学習されました。 さらに、DarkBERTはダークウェブから収集されたテキストの隠された言語モデリング(MLM)を介してRoBERTaモデルをさらに訓練します。

コーパスの収集はDarkBERTトレーニングの基本的な課題です。S2Wは、ダークウェブデータを含むダークウェブ上のドッペルゲンガーを収集して分析する能力で有名であり、トレーニングに適した大量のダークウェブテキストコーパスを蓄積しました。 コーパスの品質は、冗長性と低密度ページ除去によって改善され、精製後も5.83GBの膨大なコーパスを保持しています。

DarkBERTは、既存の大規模言語モデルを活用して特定のドメインデータをさらに(post-training)学習しました。 通常、抽出が困難な匿名ウェブに存在する非構造化データを処理し、コンテキストを推論します。 また、匿名ウェブで発生する様々な犯罪活動を検出/分類し、重要な脅威情報を抽出するために使用できます。

DarkBERT開発過程
NLPとは?
DarkBERTをどのように使用しますか?
  • ダークウェブページの分類
    ダークウェブには、様々な種類のサイバー犯罪に関するコンテンツページがたくさん存在します。
    このような大量の非構造化データの中で、コンテンツに基づいてページを自動的に分類することは、視覚を争うダークウェブインテリジェンスにとって非常に重要です。
    DarkBERTは、ポルノ、ハッキング、暴力などのトピックでウェブページのコンテンツを分類する作業において最新のパフォーマンスを誇っています。
    ページの分類方式の詳細については、S2Wで作成した論文「Shedding New Light on the Language of the Dark Web」に記載されています。
  • ランサムウェア流出サイトの検出
    ランサムウェア脅威アクターは、交渉に応じない被害企業の機密データを公開するための「流出サイト」を運営しています。
    これらのウェブサイトをすばやく検出することは、危険度の高いランサムウェアグループのインテリジェンスを収集するために重要です。 DarkBERTは流出サイトの自動検出に優れた性能を所有しています。
  • 主なスレッド検出
    ダークウェブフォーラムは、様々な違法活動に関する情報を共有・取引するプラットフォームとして使用されます。
    フォーラムでは、多数のユーザーが自由に投稿を作成できるため、特定のトピックのみ監視することは困難です。 主要スレッド(機密情報やマルウェアハッキングツールの販売/共有など)を見つけるために投稿をフィルタリングすることは、効果的な監視に不可欠です。 DarkBERTは、主要フォーラムのスレッドの自動検出に優れた性能を誇っています。
  • 脅威キーワードの推論
    日常的な言葉は、ダークウェブではまったく異なる意味を持ちます。 DarkBERTは、サイバー犯罪者が使用している隠語と言語を理解するように訓練されており、文脈における単語の使用を理解することができます。
データインテリジェンスとは?
DarkBERT活用事例
Use Case 1
Use Case 2
Use Case 3
ユーザーカスタマイズ型ファインチューニングと分類

DarkBERTはユーザーに合わせてチューニングしてご利用いただけます。 大量の多様な内/外部の非構造化データを処理し、大量のデータからユーザーが望む情報のみを分類/精製することができます。

クライアントA社(産業:建設)

[Pain point]
外部(ウェブ)には、企業の意思決定に必要な様々な言語データがありますが、これを直接クロールして分析するには企業の内部インフラが不足しており、特に非構造化言語データを処理するための言語処理ノウハウが不足していることが多いです。言語処理関連の人材がいても、収集/分析するデータがドメイン特化されたデータの場合、処理難易度が高いため汎用的な技術では難しく、ドメイン特化チューニング技術が必要です。 (例:ダークウェブにチューニングされたDarkBERTを製作)

[Challenge]
企業内で生産される大量の非構造化言語データから特定のデータだけを分類したり、意思決定に役立つインサイトを抽出したいというニーズがありました。 しかし、このようなデータはドメイン特性が非常に強いデータなので、汎用的な技術ではきちんと処理するのは非常に困難です。

[Result of Adoption]
ユーザーが大量のデータを確認してインサイトを抽出したいときに、ドメイン特化した言語モデルを通じて有意なデータをあらかじめ自動的に選別することで、ユーザーがデータ精製にかかる時間を大幅に短縮し、作業効率を大幅に向上させることができます。 また、データから特定の統計値を抽出する際に、言語モデルがあらかじめ絞り込んだデータを使用することで、抽出された統計値の信頼度を高めることができます。 これらのドメインに特化したデータの分類/精製プロセスは、企業がデータに基づいて効果的な意思決定を下す上で重要な役割を果たします。

オープンLLMに融合

LLMの導入においてもDarkBERTが重要な役割を果たします。企業の内・外部には様々なデータが存在しており、最近の企業ではChatGPTなどのLLMが活用され該当データから必要な情報を導くために導入されています。このため、「検索に基づく回答の生成」、すなわちRAG(Retrieval-Augmented Generation)技術が大きく注目されていますが、問題は処理すべきデータがあまりにも多く、ドメインの性格の強さや(専門用語など)、不要なデータも多いため検索効率と精度が低下します。

DarkBERTのような「ドメイン特化エンコーダーモデル」は、2つの側面でこの問題を解決するのに役立ちます。

(1) ドメイン固有のデータの精製/分類 :
企業のデータ特性に合わせて調整されたモデルを使用し、意思決定に重要なデータを事前に自動的に分類し、検索精度を向上させることでLLMの回答の質を向上させます。

(2) ドメインに特化した埋め込みembedding(ベクトル化vectorization):
RAGの重要な要素である意味ベースの検索を行うためには、文書を適切に埋め込むことが不可欠ですが、一般言語モデルはドメイン性の強いデータに対する理解度が不足しており、正しい意味が反映された埋め込みが困難です。DarkBERTのようにドメインに特化したチューニングを施したモデルは、高品質の埋め込みを可能にし、ユーザーの質問に対する検索精度を大幅に向上させることができます。

ダークウェブ特化型生成AI

DarkCHATは、ダークウェブ監視ソリューション「Xarvis」にインストールされたダークウェブコンテンツに特化した生成AIモデルです。
Xarvisには、ユーザーが求める情報を洗練して表示できる効果的なシステムが必要でした。 DarkCHATを使用すると、ユーザーは関心のあるトピックに関連する脅威インテリジェンスを効果的に取得できます。 DarkCHATは、収集されたデータに基づいて新しいインテリジェンスを導き出し、単一のステートメントで目的のデータにアクセスできます。

商用化された既存の言語モデルはダークウェブに直接アクセスできず、サーフェスウェブ上に掲載されたすでに洗練されたダークウェブニュースを提供しています。 それとは異なりDarkCHATは、ダークウェブ特化型生成AIのため、リアルタイムに収集されたダークウェブデータに基づいて、現在ダークウェブで何が起こっているのかリアルなダークウェブ情報を提供します。

※生成人工知能は、与えられたデータまたは入力に基づいて新しいデータを生成する人工知能技術です。 ディープラーニングに属し、生成モデルとも呼ばれます。 生成人工知能は、テキスト、画像、オーディオ、ビデオなど、様々なデータ形式を生成できます。