다음은 S2W AI팀과 KAIST의 협력하여, 세계 최고 수준의 컴퓨터 과학 및 AI 학회인 'ACL(Association for Computational Linguistics)'에서 발표한 다크웹 도메인에 특화된 AI 언어 모델 "DarkBERT"에 관한 논문의 내용입니다.
* ACL 학회는 계산 언어학 및 자연어 처리(NLP) 분야의 주요 학술 행사입니다. 연구자, 실무자, 학자들이 최신 연구 결과, 혁신, 발전을 발표하는 가장 권위 있는 학회 중 하나입니다.
DarkBERT: A Language Model for Dark Side of the Internet
1. DarkBERT가 무엇인가요?
DarkBERT는 S2W가 방대한 다크웹 데이터를 활용하여 훈련한 언어모델입니다. 다른 유사한 인코더 언어모델들이 일반적인 서피스웹과 다른 다크웹 언어의 난해함에 어려움을 겪는 반면, DarkBERT는 다크웹의 불법 콘텐츠 등을 이해할 수 있도록 특별히 훈련되었습니다.
DarkBERT는 RoBERTa 모델을 기반으로 다크웹에서 수집된 텍스트에 대한 Masked Language Modeling(MLM)으로 추가 훈련되었습니다. 이는 BERT보다 더 많은 데이터를, 더 오랜 시간 동안, 정교하게 학습했다는 사실을 의미합니다. 즉, 잘 구축된 AI 엔진의 기준을 크게 '학습 데이터의 양'과 '데이터 처리 기술'로 정해보았을 때, 비정형 데이터가 주를 이루는 방대한 양의 다크웹 데이터를 RoBERTa 모델을 기반으로 MLM 추가 훈련하여 세계적으로 기술력을 인정받았습니다.
또한 DarkBERT 훈련에서 가장 큰 도전 과제 중 하나는 코퍼스 수집입니다. 다크웹 데이터 수집 및 분석 능력으로 유명한 S2W는 훈련에 적합한 대규모 다크웹 텍스트 코퍼스를 축적했습니다. 코퍼스의 품질은 중복되거나 정보 밀도가 낮은 페이지를 제거하여 개선되었습니다. 필터링 후에도 5.83GB의 상당한 크기의 코퍼스를 확보했습니다.
2. 다크웹 연구 배경 설명
다크웹은 특정 프로토콜을 필요로 하는 인터넷의 일부입니다. 이러한 프로토콜을 통해 다크웹은 익명성을 유지할 수 있고, 접근과 제어가 어렵다는 특징을 갖고 있습니다. 이러한 특성 때문에 사이버 범죄자들은 불법 콘텐츠를 공유하고 악용하는 경로로 다크웹을 많이 이용합니다. S2W는 오랜시간 다크웹을 모니터링하고 연구한 경험이 있으며, 이는 ‘피싱(phishing)’과 ‘언어(language)’ 분야에서 통찰력을 제공합니다.
3. DarkBERT AI 모델 훈련 과정
사전 훈련된 언어 모델(PLM, Pretrained language models)은 매우 강력하지만, 다크웹에서의 효과성에 있어서는 도전적인 과제가 있습니다. 다크웹과 서피스웹의 언어가 상당히 다르기 때문인데요.
서피스웹에서 훈련된 BERT가 다크웹 언어를 이해하도록 최적화될 수 있을까요? 만약 다크웹 도메인에서 BERT와 유사한 트랜스포머 모델을 훈련시킨다면 어떻게 될까요?
PLM을 만드는 데 있어 중요한 도전 과제는 훈련 데이터의 집합을 확보하는 것입니다. 일반적으로 다크웹은 포착하기 어렵지만, S2W의 수집 능력을 통해 상당량의 다크웹 텍스트를 확보할 수 있었습니다. 다크웹 언어에 대한 이전 연구를 통해, 데이터의 일부가 훈련에 적합하지 않을 수 있다는 것을 알게 되었습니다. 따라서 우리는 정보가 적은 페이지를 제거하고, 카테고리 별로 균형을 맞추며, 중복된 페이지를 제거하여 코퍼스를 필터링합니다. 또한 공통 식별자와 잠재적으로 민감한 정보를 익명화하기 위해 전처리도 활용합니다. 그 결과, 최종적으로 5.83GB의 비처리 코퍼스와 5.20GB의 처리된 코퍼스를 갖게 되었습니다.
DarkBERT는 BERT 모델보다 더 오랜 시간 동안 더 많은 데이터로 훈련된 RoBERTa 기본 모델을 기반으로 훈련되었습니다. RoBERTa의 하이퍼파라미터를 따르며, RoBERTa와 같이 MLM 작업으로 훈련을 진행했습니다. 손실을 모니터링하며 약 20K 스텝에서 훈련을 중지했습니다. 총 8개의 NVIDIA A100 GPU에서 약 15일 동안 DarkBERT를 훈련했습니다. 모델은 요청 시 제공되므로 고객사에서 직접 훈련할 필요는 없습니다.
4. DarkBERT 사용 방법
1) 다크웹 페이지 분류: 다크웹은 다양한 사이버 범죄와 관련된 노골적인 콘텐츠로 가득한 수많은 페이지가 존재합니다. 페이지를 콘텐츠에 따라 자동으로 분류하는 것은 시의적절한 다크웹 정보 수집에 매우 중요합니다. DarkBERT는 Pornography(포르노그래피), Hacking(해킹) 등과 같은 주제로 웹페이지 콘텐츠를 분류하는 다크웹 페이지 분류 작업에서 최첨단 성능을 달성했습니다. 우리의 페이지 분류 스키마는 "다크웹 언어에 대한 새로운 시각 제공"에서 설명됩니다.
2) 랜섬웨어 유출 사이트 탐지: 랜섬웨어를 운영하는 사이버 범죄자들은 종종 비협조적인 피해 기업의 기밀 데이터를 게시하기 위해 "유출 사이트"를 운영합니다. 이러한 웹사이트를 신속하게 찾는 것은 고위험 랜섬웨어 그룹에 대한 정보를 수집하는 데 매우 중요합니다. DarkBERT는 유출 사이트를 자동으로 탐지하는 작업에서 최첨단 성능을 달성했습니다.
3) 주목할 만한 스레드 탐지: 다크웹 포럼은 다양한 불법 활동과 관련된 정보를 공유하고 판매합니다. 다크웹 포럼을 모니터링하는 것은 다크웹 상 수많은 사용자가 어떤 주제로든 게시할 수 있기 때문에 도전적인 과제입니다. 기밀 정보나 악성 해킹 도구를 판매/공유하는 게시물과 같은 주목할 만한 스레드를 필터링하는 것은 효과적인 모니터링에 필수적입니다. DarkBERT는 주목할 만한 다크웹 포럼 스레드를 자동으로 탐지하는 작업에서 최첨단 성능을 달성했습니다.
4) 위협 키워드 추론: 다크웹에서는 익숙한 단어들이 완전히 다른 의미를 가질 수 있습니다. DarkBERT는 사이버 범죄자들이 사용하는 속어와 노골적인 언어를 이해하도록 훈련되어, 다크웹 맥락에서의 단어 사용을 이해할 수 있게 해줍니다.
✅ 아래 링크를 통해 DarkBERT AI 기술에 대한 심층 이해가 가능합니다.
https://s2w.inc/ko/resource/detail/279
👉 다크버트 문의: https://s2w.inc/ko/contact