다음은 S2W가 세계 탑티어 인공지능 학회 ‘NAACL(북미 전산언어학학회)’에서 발표한 사이버보안 문서에 특화된 AI 언어모델 ‘사이버튠(CyBERTuned)’ 논문 내용입니다.
Ignore Me But Don't Replace Me: Utilizing Non-Linguistic Elements for Pretraining on the Cybersecurity Domain (NAACL 2024)
논문 내용을 한 줄로 요약하면, 사이버보안 영역에서의 사전 학습을 위한 비언어적 요소 활용인데요.
- 1. 언어 모델
인간 언어(자연어)를 받아 컴퓨터가 문맥을 이해할 수 있게 학습 하는 모델을 언어모델이라고 합니다. 이 중에서도 BERT식 encoder 모델을 사용했습니다. (encoder 모델은 언어를 받아서 그 의미를 벡터 형태로 변환해주는 모델로 ChatGPT과 같은 대화형 모델과는 다릅니다. DarkBERT도 역시 encoder 모델이였습니다.) S2W의 첫 번째 언어모델이자 세계 최초 다크웹 언어모델인 다크버트(DarkBERT)에 대한 기술 논문은 아래 링크에서 확인이 가능합니다.
- Part 1: https://s2w.inc/ko/resource/detail/278
- Part 2: https://s2w.inc/ko/resource/detail/279
- 2. 사전학습
사전학습은 언어 모델에게 텍스트를 주고 알아서 학습하도록 만드는 것인데요. 이후에 특정 능력을 주기 위해서 파인튜닝(finetuning)을 하는데, 그 전에 먼저 텍스트만 가지고 스스로 학습하는 과정을 사전학습(pretraining)이라고 합니다.
2-1. MLM
일반적 encoder 사전학습법은 Masked Language Modeling (MLM) 을 사용합니다. 주어진 문장에서 스스로 단어 몇개를 가리고 (masking), 그 단어를 맞추는 형식입니다. 가려진 단어를 맞추다 보면, 단어간의 의미를 파악하는 학습 효과를 기대할 수 있습니다.
예를 들어 ‘The capital of France is Paris’라는 문장에서 랜덤하게 단어들을 [MASK] 로 치환해 ‘The capital of France is [MASK]’와 같은 형식으로 만든 후 [MASK] 에 ‘Paris’ 가 들어올 것을 학습합니다. MASK의 단어를 맞추기 위해서는 단어들이 조합된 의미를 알아야하고, 프랑스 수도에 대한 정보가 필요한 것을 확인 할 수 있습니다. 비슷하게, 여러 번 모델이 자기학습을 하다 보면 더 똑똑해지는 것이죠.
- 3. 사이버보안 전용 모델
이와 같은 사전학습법은 모델이 언어를 효과적으로 배우게 할 수 있지만, 일반적으로 사용되는 언어와 전문적인 문맥(context)에서 사용되는 언어가 다릅니다. 전문적인 사이버보안 지식 모델을 학습하기 위해서는, 사이버보안 데이터를 갖고 학습해야 합니다. 이와 같이 특정 분야 전용 모델 만들기가 한때 유행이었습니다. (BioBERT, LegalBERT 등이 대표적). 다크버트(DarkBERT)도 다크웹상의 데이터를 가지고 사전학습한 논문을 통해 작년에 ACL에서 발표를 할 수 있었습니다.
사이버보안 자료에 사용되는 언어에 특화된 모델을 만들기 위해서는 사이버보안 자료를 수집해야 했고, 이를 위해S2W의 AI팀은 위와 같이 다양한 데이터를 직접 수집했습니다.
- 4. 사이버보안 언어모델 한계 극복
사이버보안 전용 언어모델을 만들기 위해서는 2.1 에서 설명한대로 사전학습을 사이버보안 문서에 진행해야 합니다. 하지만 이런 방법으로 사이버보안 전용 모델을 만드려는 시도는 이미 여러번 있었는데요. 사이버튠(CyBERTuned)는 기존 사이버보안 전용 모델의 한계점을 극복했습니다.
4.1 기존 학습법 한계점
사이버보안 문서 내에 URL또는 SHA Hash 같은 자연어가 아닌 부분들이, 자연어와 함께 나타나는 것을 볼 수 있습니다. 이를 통합해 논문에서는 비언어적인 요소 (Non-linguistic elements)로 지칭하기로 했습니다. 비언어적인 요소를 마스킹하면 원본을 복귀하는 것이 언어적 의미가 없게 됩니다. 다르게 말하면 [MASK]에서 원문을 복구하는 과정이 의미가 없어질 때가 많습니다. 그렇기 때문에 ‘The capital of France is [MASK]’에서 ‘The capital of France is Paris’ 를 맞추도록 학습 하는것은 의미가 있지만, 랜덤한 문자열 ‘d8[MASK]93252f41…’에서 ‘d8e93252f41’를 맞추도록 학습하는 것은 의미가 없다고 볼 수 있습니다.
4.2 새로운 학습법 제시
기존 학습법에 대해 여러 수정 방안을 제시했습니다. 여러 셋팅 중 다음 변경을 한 학습법이 가장 좋은 성능을 보였습니다.
- 1. 마스킹 유무를 비언어적인 요소 유형에 따라 변경
- 2. 마스킹과 별개로, 비언어적 요소 유형도 맞추도록 학습
위에서 검증한 학습법을 통해 언어모델을 모든 데이터에 학습했습니다. 완성한 모델 사이버튠(CyBERTuned)은 다른 사이버보안 전용 모델들 보다 우수한 성능을 보이며 이를 멕시코시티에서 2024년 6월 19일에 발표했습니다.
발표 요약본과 논문을 pdf 파일로 첨부드립니다. (*아래 이미지 미리보기 참고)
👉 사이버튠 문의: https://s2w.inc/ko/contact