ダークバート(DarkBERT):ダークウェブドメインに特化したAI言語モデル
S2W AIチームは、世界最高レベルのコンピュータサイエンスおよびAI学会「ACL(Association for Computational Linguistics)2023」において、ダークウェブドメインに特化したAI言語モデル「DarkBERT」を公開しました。
- ACL学会は、計算言語学および自然言語処理(NLP)分野における主要な学術イベントであり、研究者、実務者、学者たちが最新の研究成果、革新、進展を発表する最も権威のある学会の一つです。
DarkBERTは、S2Wが膨大なダークウェブデータを活用して訓練した言語モデルです。他の類似したエンコーダー言語モデルが、一般的なサーフェスウェブと異なるダークウェブ言語の難解さに苦しむ一方、DarkBERTはダークウェブの違法コンテンツなどを理解できるように特別に訓練されています。
DarkBERTは、RoBERTaモデルをベースにダークウェブで収集されたテキストに対してMasked Language Modeling(MLM)で追加訓練されました。これは、BERTよりも多くのデータを、より長い時間、精緻に学習したことを意味します。つまり、優れたAIエンジンの基準として「学習データの量」と「データ処理技術」を大きな指標とした場合、非構造化データが主体の膨大なダークウェブデータをRoBERTaモデルを基盤にMLMで追加訓練し、世界的に技術力が認められたということです。
✅ 詳しくは、こちらをご確認ください(英語) : https://s2w.inc/en/resource/detail/278
✅ お問い合わせ : https://s2w.inc/ja/contact