AI


생성형 AI 보러가기
Agentic AI
  • Agentic AI
  • Agentic Workflow
  • 도메인 특화 AI
  • Use Cases
Agentic AI
답변하는 AI를 넘어, 문제를 해결하는 AI로

S2W는 AI를 질문에 응답하는 수준을 넘어, 스스로 상황을 이해하고 판단하며 실행까지 수행하는 Autonomous Intelligence를 지향합니다. 우리는 AI를 단순한 인터페이스가 아닌 실제 업무 현장에서 전문가처럼 행동하는 주체, Agentic AI로 발전시키고 있습니다.

S2W가 다년간 축적해온 대규모 데이터 수집, 정제, 분석 노하우와 도메인 인텔리전스를 AI에 결합하여,복잡하고 불확실한 문제를 능동적으로 해결하는 지능형 에이전트(Intelligent Agent)를 구현합니다. 이를 통해 사용자는 단순한 정보 제공이 아닌, 실질적인 문제 해결과 의사결정 지원을 경험할 수 있습니다.

전문가 지능형 에이전트

S2W Agentic AI의 핵심은 인간 전문가의 사고 방식을 모방한 순환형 워크플로우(Iterative Workflow)에 있습니다. 단 한 번의 추론으로 결론을 확정짓는 것이 아닌, 현재 상황을 종합적으로 인식하고, 계획을 수립·보완하며, 결과를 검증하는 과정을 반복합니다.

이러한 반복적 사고 구조를 통해 Agentic AI는 점점 더 정교한 판단을 수행하며, 복잡한 문제 환경에서도 최적의 해답에 수렴해 나갑니다. S2W는 전문가의 사고 고리를 다음 네 가지 단계로 구조화하여 선순환 구조를 완성합니다.

Agentic Workflow
생각의 고리(Loop of Thought)
  • 1. Perception (인식)
    사용자의 질문과 요청을 표면적으로 해석하는 데 그치지 않고, 그 이면에 존재하는 실제 목적과 의도, 문제의 맥락을 정밀하게 파악합니다. 불완전하고 모호한 입력 속에서도 핵심 요소를 식별합니다.
  • 2. Planning (계획)
    문제를 해결하기 위해 필요한 도구, 데이터 소스, 검색 경로, 분석 절차를 AI가 스스로 설계합니다. 정해진 시나리오가 아닌, 상황에 최적화된 전략을 동적으로 수립합니다.
  • 3. Action (실행)
    설계된 계획에 따라 실제 검색 엔진, 분석 모듈, 내부 데이터베이스 및 외부 인텔리전스를 호출하여 정보를 수집하고 분석을 수행합니다. Agent는 단순 추론을 넘어, 실제 행동을 수행하는 주체로 동작합니다.
  • 4. Reflection (성찰 & 수정)
    도출된 결과가 충분한지 스스로 검증하는 '자가 수정(Self-Correction)' 메커니즘을 통해 분석의 신뢰성과 완성도를 점검합니다. 결과가 미흡할 경우, 계획을 수정하고 과정을 재실행하여 더 나은 해답을 도출합니다.
도메인 특화 AI
문제 해결의 시작, 도메인 특화 AI

S2W는 조직 내 특화된 데이터를 활용하여 조직의 고유한 AI 데이터 생태계를 형성하고, 새로운 비즈니스 가치를 제시합니다. 도메인 특화 AI 기술의 핵심은 특정 도메인(산업/조직) 내 데이터 체계를 정의하고, 각 데이터 간의 관계성을 구조화하는데 있습니다. 이를 기반으로 생성된 지식그래프(Knowledge Graph)는 데이터 간의 관계를 정밀하게 분석할 수 있게 합니다. 이렇게 구축된 조직 맞춤형 데이터 운용 시스템은 단순 검색이 아닌 인과 관계 및 중요도를 평가하여 전략적 의사결정에 직접 활용할 수 있는 고도화된 인텔리전스를 제공합니다.

데이터와 환경을 이해하는 언어모델(LLM)

S2W의 도메인 특화 언어모델은(LLM) 특정 분야와 영역의 데이터를 처리하고 이해하는데 탁월한 성능을 갖추었으며, 사용자가 보유한 데이터와 환경을 고려하여 사용자별 최적의 맞춤형 데이터 운용 솔루션을 제시합니다.

언어모델(LLM)의 성능은 학습 데이터의 양과 질에 크게 좌우되며, 이를 효과적으로 분석하고 가공하는 것이 중요합니다. 더 나아가 보유한 각각의 데이터는 출처와 특성, 그리고 질이 다르기 때문에 상황에 맞게 적합한 데이터를 찾아내고 수집할 수 있는 유연한 접근이 필요합니다. 하지만 특정 도메인(사이버보안, 의료, 금융등)에 특화된 모델 구축은 일반적으로 인터넷에 공개 되어있는 데이터만으로는 전문성을 갖추기 어렵습니다. S2W는 해당 분야의 전문 문서, 논문, 보고서, 코드, 다크웹·포럼 데이터 등을 확보하고, 조직 내부적으로 존재하는 데이터까지 학습한 언어모델(LLM)을 구축합니다.

더 나아가 단순한 데이터 수집이 아닌 노이즈 제거, 중복 필터링, 레이블링 등의 데이터 정제(Data Cleaning) 과정을 거쳐 고효율의 모델을 만듭니다. 여기에 데이터 증강(Data Augmentation) 기법을 더해 부족한 데이터를 보완합니다. 이러한 고품질 도메인 데이터 확보와 정제를 통해 고효율, 고성능의 언어모델(LLM)을 만들어갑니다.

데이터 간의 관계를 정의하는 지식그래프(KG)

도메인별로 특화된 언어모델(LLM)은 도메인 특화 지식그래프(Knowledge Graph, KG)를 구축의 기반이됩니다. 이 지식그래프는 조직 내/외부에 산재한 정형/비정형 데이터를 통합하고, 데이터 간의 관계를 자동으로 이해하고 정의하는 역할을 수행합니다. 이를 통해 산업별·조직별 맥락을 반영한 정교한 의미 분석과 자동화된 데이터 운용을 실현하고 있습니다. 정교하게 설계된 지식그래프는 데이터 간의 단절된 구조를 극복하고, 일관된 데이터 환경을 만들어 고도화된 데이터 활용과 자동화된 분석이 가능하도록 지원합니다.

Use Cases
Use Case 1
Use Case 2
Use Case 3
Use Case 4
세계 최초 다크웹 특화 언어모델, DarkBERT

DarkBERT(다크버트)는 S2W가 다크웹 데이터를 수집 분석해 학습시킨 세계 최초 다크웹 특화 언어 모델입니다. 다크버트는 특히 다크웹에 존재하는 대량 비정형 데이터를 처리하고 분석하는데 탁월한 성능을 자랑합니다. 시중의 범용 언어 모델들은 일반적인 데이터만을 다루는 반면, 다크버트는 익명의 채널에서 수집된 콘텐츠와 은어 등을 학습해 불법적 행위와 콘텐츠를 이해하고 처리할 수 있게 설계되었습니다.

더 나아가, 다크버트는 기존 대량 언어모델을 활용해 특정 도메인 데이터를 추가로 (post-training) 학습하여 일반적으로 추출이 어려운 '범죄 특화', '다크웹 특화' 데이터를 처리하고 문맥을 추론합니다. 이는 익명 웹에서 발생하는 다양한 범죄 활동을 탐지/분류하고, 핵심 위협 정보를 추출하는데 활용됩니다.

오픈 LLM

LLM 도입에 있어서도 다크버트가 중요한 역할을 합니다. 기업 내부, 외부에는 다양한 데이터가 존재하고, 최근 기업들은 ChatGPT와 같은 LLM이 해당 데이터를 이용하여 나와 대화를 해주는 것을 찾고 있습니다. 이를 위해 "검색에 기반한 답변 생성", 즉 RAG (Retrieval-Augmented Generation) 기술이 크게 주목받고 있습니다. 하지만 문제는 처리해야 할 데이터가 워낙 많고 도메인 성격이 강하며(전문용어 등) 불필요한 데이터도 많아서 검색 효율과 정확도가 떨어집니다.

다크버트와 같은 "도메인 특화 인코더 모델(domain-specific encoder model)”로 두 가지 측면에서 이런 문제를 해결할 수 있습니다.

(1) 도메인 특화된 데이터 정제/분류:
기업의 데이터 특성에 맞게 튜닝된 모델을 이용하여 의사결정에 중요한 데이터를 미리 자동으로 분류하고 검색 정확도를 높힘으로써 LLM 답변의 질을 향상시킵니다.

(2) 도메인 특화된 임베딩(벡터화vectorization):
RAG의 중요한 요소인 의미 기반 검색을 수행하기 위해서는 문서를 적절하게 임베딩하는 것이 필수적인데, 일반 언어모델은 도메인 성격이 강한 데이터에 대한 이해도가 부족하여 올바른 의미가 반영된 임베딩이 어렵습니다. 다크버트와 같이 도메인 특화된 튜닝을 거친 모델은 high-quality 임베딩을 가능하게 하여 사용자의 질문에 대한 검색 정확도를 크게 높일 수 있습니다.

DarkCHAT, 범죄 수사 특화 생성형 AI

DarkCHAT는 S2W의 공공·정부기관용 안보 빅데이터 플랫폼인 XARVIS의 기능 중 하나로, 범죄 수사 특화 생성형 AI입니다. XARVIS는 사용자가 원하는 정보를 실시간으로 정제하고 취득할 수 있는 수 있는 시스템이 필요했습니다. DarkCHAT은 이러한 니즈를 효과적으로 반영해 사용자가 자연어 질의를 통해 관심 주제와 관련된 위협 인텔리전스를 즉각적으로 얻을 수 있게하였습니다. 수집된 데이터를 정제하여 정리된 정보를 자연어로 제공하고, 자동 데이터 처리와 교차 분석을 통해 데이터 새로운 인텔리전스를 도출하여 제공합니다.

상용화된 범용 언어 모델은 직접적으로 다크웹에 액세스할 수 없으며 서페이스 웹의 기자들에 의해 이미 정제된 다크웹 뉴스를 가져와 보여주는 반면, DarkCHAT은 다크웹 특화 생성형 AI로 실시간으로 수집된 다크웹 데이터에 기반해 현재 익명의 채널들에서 어떤 일이 일어나고 있는지 생생한 정보와 유의미한 데이터를 확인할 수 있습니다.

고객 맞춤형 파인 튜닝과 분류

고객사 A (산업: 건설)

[Pain point]
외부(웹)에는 기업 의사결정에 필요한 다양한 언어 데이터가 있습니다. 하지만 이를 직접 크롤링하고 분석하기에는 기업 내부 인프라가 부족하고, 특히 비정형 언어 데이터를 처리하기 위한 언어처리 노하우가 부족한 경우가 많습니다. 언어처리 관련 인력을 보유하고 있더라도, 수집/분석하려는 데이터가 도메인 특화된 데이터인 경우 처리 난이도가 높아서 범용적인 기술로는 어려워 도메인 특화 튜닝 기술이 필요합니다. (예: 다크웹에 튜닝된 다크버트를 제작)

[Challenge]
기업 내부에 생산되는 대량의 비정형 언어 데이터에서 특정 데이터만 분류하거나 의사결정에 도움이 되는 인사이트를 추출하고 싶은 니즈가 있었습니다. 하지만 이런 데이터는 도메인 특성이 매우 강한 데이터라서 범용적인 기술로는 제대로 처리하기 매우 까다롭습니다.

[Result of Adoption]
사용자가 대량의 데이터를 확인하여 인사이트를 추출하고자 할 때 도메인 특화된 언어모델을 통해 유의미한 데이터를 미리 자동으로 선별함으로써 사용자가 데이터 정제에 들이는 시간을 획기적으로 낮추어 작업 효율을 대폭 향상시킬 수 있습니다. 또한 데이터로부터 특정 통계치를 추출할 때 언어모델이 미리 정제한 데이터를 사용함으로써 추출된 통계치의 신뢰도를 높일 수 있습니다. 이러한 도메인 특화된 데이터의 분류/정제 과정은 기업이 데이터를 기반으로 효과적인 의사결정을 내리는 데 중요한 역할을 담당합니다.