AI


논문 읽으러 가기
DarkBERT란?
  • DarkBERT란?
  • DarkBERT 활용 방법
  • Use Cases
DarkBERT란?

DarkBERT는 S2W가 다양한 다크웹 컨텐츠를 활용해 학습시킨 세계 최초 다크웹 특화 언어 모델입니다. 언어 모델이란 사람의 언어를 이해하고 방대한 지식을 사전 학습하여 여러 자연어처리 문제 해결 능력이 뛰어난 AI 모델을 뜻합니다. 그 중에서도 DarkBERT는 특히 다크웹에 존재하는 비정형 데이터를 처리하고 분석하는데 탁월한 성능을 자랑합니다. 타 유사 구조의 인코더 언어 모델들은 다크웹의 비정형 어휘 및 구조적 다양성에 어려움을 겪는 반면, DarkBERT는 특히 다크웹의 불법 콘텐츠를 이해하기 위해 학습되었습니다. 더 나아가 DarkBERT는 다크웹에서 수집된 텍스트의 가리워진 언어 모델링 (MLM)을 통해 RoBERTa 모델을 추가로 훈련합니다.

코퍼스 수집은 DarkBERT 훈련의 근본적인 과제입니다. S2W는 다크웹 데이터를 비롯해 다크웹 상의 도플갱어들을 수집하고 분석하는 능력으로 유명하며, 훈련에 적합한 대량의 다크웹 텍스트 코퍼스를 축적했습니다. 코퍼스의 품질은 중복과 저밀도 페이지 제거를 통해 개선했으며, 정제 후에도 5.83GB의 방대한 코퍼스를 보유하고 있습니다.

DarkBERT는 기존 대량 언어모델을 활용해 특정 도메인 데이터를 추가로(post-training) 학습했습니다. 일반적으로 추출이 어려운 익명 웹에 존재하는 비정형 데이터를 처리하고 문맥을 추론합니다. 또한, 익명 웹에서 발생하는 다양한 범죄 활동을 탐지/분류하고, 핵심 위협 정보를 추출하는데 이용할 수 있습니다.

DarkBERT 개발 과정
자연어 처리(NLP)란?
DarkBERT 어떻게 사용하나요?
  • 다크웹 페이지 분류
    다크웹에는 다양한 유형의 사이버 범죄 관련 콘텐츠로 가득 찬 페이지가 많습니다. 이러한 대량의 비정형 데이터 속에서 콘텐츠를 기반으로 페이지를 자동으로 분류하는 것은 시각을 다투는 다크웹 인텔리전스에 매우 중요합니다. DarkBERT는 포르노, 해킹, 폭력 등과 같은 주제로 웹페이지 콘텐츠를 분류하는 작업에서 최신의 성능을 자랑합니다. 페이지 분류 체계에 대한 자세한 내용은 S2W에서 작성한 논문 ‘Shedding New Light on the Language of the Dark Web’에 설명되어 있습니다.
  • 랜섬웨어 유출 사이트 탐지
    랜섬웨어 공격자들은 종종 협상을 하지 않는 피해 회사의 기밀 데이터를 게시하기 위한 “유출 사이트"를 운영합니다. 이러한 웹사이트를 신속하게 탐지하는 것은 고위험 랜섬웨어 그룹에 대한 인텔리전스를 수집하는 데 중요합니다. DarkBERT는 유출 사이트 자동 탐지에 탁월한 성능을 보유하고 있습니다.
  • 주요 쓰레드 감지
    다크웹 포럼은 다양한 불법 활동과 관련된 정보를 공유하고 거래하는 플랫폼으로 사용됩니다. 포럼은 수많은 사용자들이 자유롭게 게시물을 생성할 수 있기 때문에 특정 주제만을 모니터링 하기 어렵습니다. 주요 쓰레드 (기밀 정보나 악성 해킹 도구 판매/공유 등)를 찾아내기 위해 게시물을 필터링하는 것은 효과적인 모니터링에 필수적입니다. DarkBERT는 주요 포럼 쓰레드 자동 탐지에 탁월한 성능을 자랑합니다.
  • 위협 키워드 추론
    일상적인 단어들도 Dark Web에서는 완전히 다른 의미를 가질 수 있습니다. DarkBERT는 사이버 범죄자들이 사용하는 은어와 언어를 이해하도록 훈련되어 있어, 우리가 맥락에서 단어 사용을 이해할 수 있게 합니다.
데이터 인텔리전스란?
DarkBERT 활용 사례
Use Case 1
Use Case 2
Use Case 3
고객 맞춤형 파인 튜닝과 분류

다크버트는 사용자 맞춤형으로 튜닝해서 사용할 수 있습니다. 대량의 다양한 내/외부 비정형 데이터를 처리하여 대량의 데이터로부터 사용자가 원하는 정보만 잘 분류/정제해 줄 수 있습니다.

고객사 A (산업: 건설)

[Pain point]
외부(웹)에는 기업 의사결정에 필요한 다양한 언어 데이터가 있습니다. 하지만 이를 직접 크롤링하고 분석하기에는 기업 내부 인프라가 부족하고, 특히 비정형 언어 데이터를 처리하기 위한 언어처리 노하우가 부족한 경우가 많습니다. 언어처리 관련 인력을 보유하고 있더라도, 수집/분석하려는 데이터가 도메인 특화된 데이터인 경우 처리 난이도가 높아서 범용적인 기술로는 어려워 도메인 특화 튜닝 기술이 필요합니다. (예: 다크웹에 튜닝된 다크버트를 제작)

[Challenge]
기업 내부에 생산되는 대량의 비정형 언어 데이터에서 특정 데이터만 분류하거나 의사결정에 도움이 되는 인사이트를 추출하고 싶은 니즈가 있었습니다. 하지만 이런 데이터는 도메인 특성이 매우 강한 데이터라서 범용적인 기술로는 제대로 처리하기 매우 까다롭습니다.

[Result of Adoption]
사용자가 대량의 데이터를 확인하여 인사이트를 추출하고자 할 때 도메인 특화된 언어모델을 통해 유의미한 데이터를 미리 자동으로 선별함으로써 사용자가 데이터 정제에 들이는 시간을 획기적으로 낮추어 작업 효율을 대폭 향상시킬 수 있습니다. 또한 데이터로부터 특정 통계치를 추출할 때 언어모델이 미리 정제한 데이터를 사용함으로써 추출된 통계치의 신뢰도를 높일 수 있습니다. 이러한 도메인 특화된 데이터의 분류/정제 과정은 기업이 데이터를 기반으로 효과적인 의사결정을 내리는 데 중요한 역할을 담당합니다.

오픈 LLM에 접목

LLM 도입에 있어서도 다크버트가 중요한 역할을 합니다. 기업 내부, 외부에는 다양한 데이터가 존재하고, 최근 기업들은 ChatGPT와 같은 LLM이 해당 데이터를 이용하여 나와 대화를 해주는 것을 찾고 있습니다. 이를 위해 "검색에 기반한 답변 생성", 즉 RAG (Retrieval-Augmented Generation) 기술이 크게 주목받고 있습니다. 하지만 문제는 처리해야 할 데이터가 워낙 많고 도메인 성격이 강하며(전문용어 등) 불필요한 데이터도 많아서 검색 효율과 정확도가 떨어집니다.

다크버트와 같은 "도메인 특화 인코더 모델(domain-specific encoder model)”로 두 가지 측면에서 이런 문제를 해결할 수 있습니다.

(1) 도메인 특화된 데이터 정제/분류:
기업의 데이터 특성에 맞게 튜닝된 모델을 이용하여 의사결정에 중요한 데이터를 미리 자동으로 분류하고 검색 정확도를 높힘으로써 LLM 답변의 질을 향상시킵니다.

(2) 도메인 특화된 임베딩(벡터화vectorization):
RAG의 중요한 요소인 의미 기반 검색을 수행하기 위해서는 문서를 적절하게 임베딩하는 것이 필수적인데, 일반 언어모델은 도메인 성격이 강한 데이터에 대한 이해도가 부족하여 올바른 의미가 반영된 임베딩이 어렵습니다. 다크버트와 같이 도메인 특화된 튜닝을 거친 모델은 high-quality 임베딩을 가능하게 하여 사용자의 질문에 대한 검색 정확도를 크게 높일 수 있습니다.

다크웹 특화 생성형 AI

DarkCHAT는 XARVIS라는 다크웹 모니터링 솔루션에 설치된 다크웹 콘텐츠 특화 생성형 AI 모델입니다. XARVIS는 사용자가 원하는 정보를 정제하고 표시할 수 있는 효과적인 시스템이 필요했습니다. DarkCHAT를 사용하면 사용자는 관심 주제와 관련된 위협 인텔리전스를 효과적으로 얻을 수 있습니다. DarkCHAT은 수집된 데이터를 기반으로 새로운 인텔리전스를 도출하고 단일 명령문으로 원하는 데이터에 액세스할 수 있습니다.

상용화된 기존 언어 모델은 직접적으로 다크웹에 액세스할 수 없으며 서페이스 웹의 기자들에 의해 이미 정제된 다크웹 뉴스를 가져와 보여줍니다. 그와 달리 DarkCHAT은 다크웹 특화 생성형 AI로 실시간으로 수집된 다크웹 데이터에 기반해 현재 다크웹에 어떤 일이 일어나고 있는지 생생한 다크웹 정보를 제공합니다.


*생성 인공지능은 주어진 데이터나 입력을 기반으로 새로운 데이터를 생성하는 인공지능 기술입니다. 딥러닝에 속하며, 생성 모델이라고도 합니다. 생성 인공지능은 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형을 생성할 수 있습니다.