S2W는 조직 내 특화된 데이터를 활용하여 조직의 고유한 AI 데이터 생태계를 형성하고, 새로운 비즈니스 가치를 제시합니다. 도메인 특화 AI 기술의 핵심은 특정 도메인(산업/조직) 내 데이터 체계를 정의하고, 각 데이터 간의 관계성을 구조화하는데 있습니다. 이를 기반으로 생성된 지식그래프(Knowledge Graph)는 데이터 간의 관계를 정밀하게 분석할 수 있게 합니다. 이렇게 구축된 조직 맞춤형 데이터 운용 시스템은 단순 검색이 아닌 인과 관계 및 중요도를 평가하여 전략적 의사결정에 직접 활용할 수 있는 고도화된 인텔리전스를 제공합니다.
S2W의 도메인 특화 AI는 도메인 특화 언어모델, 지식그래프, 그리고 생성형 AI로 구성됩니다.
S2W의 도메인 특화 언어모델은(LLM) 특정 분야와 영역의 데이터를 처리하고 이해하는데 탁월한 성능을 갖추었으며, 사용자가 보유한 데이터와 환경을 고려하여 사용자별 최적의 맞춤형 데이터 운용 솔루션을 제시합니다.
언어모델(LLM)의 성능은 학습 데이터의 양과 질에 크게 좌우되며, 이를 효과적으로 분석하고 가공하는 것이 중요합니다. 더 나아가 보유한 각각의 데이터는 출처와 특성, 그리고 질이 다르기 때문에 상황에 맞게 적합한 데이터를 찾아내고 수집할 수 있는 유연한 접근이 필요합니다. 하지만 특정 도메인(사이버보안, 의료, 금융등)에 특화된 모델 구축은 일반적으로 인터넷에 공개 되어있는 데이터만으로는 전문성을 갖추기 어렵습니다. S2W는 해당 분야의 전문 문서, 논문, 보고서, 코드, 다크웹·포럼 데이터 등을 확보하고, 조직 내부적으로 존재하는 데이터까지 학습한 언어모델(LLM)을 구축합니다.
더 나아가 단순한 데이터 수집이 아닌 노이즈 제거, 중복 필터링, 레이블링 등의 데이터 정제(Data Cleaning) 과정을 거쳐 고효율의 모델을 만듭니다. 여기에 데이터 증강(Data Augmentation) 기법을 더해 부족한 데이터를 보완합니다. 이러한 고품질 도메인 데이터 확보와 정제를 통해 고효율, 고성능의 언어모델(LLM)을 만들어갑니다.
도메인별로 특화된 언어모델(LLM)은 도메인 특화 지식그래프(Knowledge Graph, KG)를 구축의 기반이됩니다. 이 지식그래프는 조직 내/외부에 산재한 정형/비정형 데이터를 통합하고, 데이터 간의 관계를 자동으로 이해하고 정의하는 역할을 수행합니다. 이를 통해 산업별·조직별 맥락을 반영한 정교한 의미 분석과 자동화된 데이터 운용을 실현하고 있습니다. 정교하게 설계된 지식그래프는 데이터 간의 단절된 구조를 극복하고, 일관된 데이터 환경을 만들어 고도화된 데이터 활용과 자동화된 분석이 가능하도록 지원합니다.
DarkBERT(다크버트)는 S2W가 다양한 다크웹 컨텐츠를 활용해 학습시킨 세계 최초 다크웹 특화 언어 모델입니다. 언어 모델이란 사람의 언어를 이해하고 방대한 지식을 사전 학습하여 여러 자연어처리 문제 해결 능력이 뛰어난 AI 모델을 뜻합니다. 그 중에서도 DarkBERT는 특히 다크웹에 존재하는 비정형 데이터를 처리하고 분석하는데 탁월한 성능을 자랑합니다. 타 유사 구조의 인코더 언어 모델들은 다크웹의 비정형 어휘 및 구조적 다양성에 어려움을 겪는 반면, DarkBERT는 특히 다크웹의 불법 콘텐츠를 이해하기 위해 학습되었습니다. 더 나아가 DarkBERT는 다크웹에서 수집된 텍스트의 가리워진 언어 모델링 (MLM)을 통해 RoBERTa 모델을 추가로 훈련합니다.
코퍼스 수집은 DarkBERT 훈련의 근본적인 과제입니다. S2W는 다크웹 데이터를 비롯해 다크웹 상의 도플갱어들을 수집하고 분석하는 능력으로 유명하며, 훈련에 적합한 대량의 다크웹 텍스트 코퍼스를 축적했습니다. 코퍼스의 품질은 중복과 저밀도 페이지 제거를 통해 개선했으며, 정제 후에도 5.83GB의 방대한 코퍼스를 보유하고 있습니다.
DarkBERT는 기존 대량 언어모델을 활용해 특정 도메인 데이터를 추가로(post-training) 학습했습니다. 일반적으로 추출이 어려운 익명 웹에 존재하는 비정형 데이터를 처리하고 문맥을 추론합니다. 또한, 익명 웹에서 발생하는 다양한 범죄 활동을 탐지/분류하고, 핵심 위협 정보를 추출하는데 이용할 수 있습니다.
NLP는 자연어 처리 (Natural Language Process)의 약자입니다. 이는 인공지능(AI)의 한 분야로, 컴퓨터와 인간 언어 간 상호작용에 중점을 둡니다. NLP는 컴퓨터가 인간의 언어를 이해하고 해석하며 가치 있는 방식으로 생성할 수 있도록 하는 것을 목표로 합니다. 이는 특정 작업을 수행할 수 있게 하는 알고리즘, 모델 및 기술의 개발을 포함합니다.
NLP는 양질의 인텔리전스를 보다 효과적으로 처리하기 위한 필수 기술입니다. NLP는 검색 엔진, 가상 어시스턴트, 고객 지원 챗봇, 추천 시스템 등을 포함한 다양한 응용 분야에서 중요한 역할을 하는데요, 인터넷 상의 텍스트 데이터 급증과 언어 관련 데이터 처리 자동화 필요로 인해 NLP의 중요성은 지속적으로 증가하고 있습니다.
정보 추출 (Information Extraction)
비정형 텍스트로부터 정형화 정보를 자동으로 추출하는 것으로, 주요 데이터를 식별하는 것(개체명 인식), 데이터 간의 관계를 추출하는 것(관계 추출), 그리고 데이터를 지식 베이스에 연결하는 것(데이터 연결)을 포함합니다.
텍스트 분류 (Text Classification)
텍스트를 미리 정의된 그룹이나 태그로 자동으로 분류하는 것으로, 감성 분석이나 스팸 탐지와 같은 응용 프로그램에서 사용됩니다.
문서 요약 (Document Summarization)
긴 텍스트 문서를 간결하고 일관된 요약하는 것으로, 주요 문장을 선택하는 방식(추출적)이나 새로운 요약 내용을 생성하는 방식(추상적)으로 이루어집니다.
언어 모델 (Language Models)
단어 순서의 가능성을 예측하는 통계 모델로, 텍스트 생성, 음성 인식, 기계 번역 등 다양한 응용에서 사용됩니다.
문의 내용 검토 후 빠른 시일 내에
담당자가 연락드리도록 하겠습니다. 감사합니다.
신청 내용 검토 후 빠른 시일 내에
담당자가 연락드리도록 하겠습니다. 감사합니다.