카테고리 없음

4주차 기초 세션

skinamalink 2026. 4. 6. 18:20
1교시 : [Deep Learning] 자연어 처리(NLP) 기초

1. 자연어 처리의 시작: 임베딩(Embedding)

-벡터화(Vectorization): 컴퓨터는 글자 자체를 이해하지 못하고 숫자만 처리 가능하기 때문에, 텍스트 데이터를 수치화하는 과정이 필수적임. 이때 이 수치화 과정을 벡터화라고 함

-One-Hot Encoding: 벡터화의 초기 방식. 단어 집합의 크기를 차원으로 하여, 표현하고 싶은 단어 인덱스에만 1을 부여하고 나머지는 0으로 표시하는 희소 표현

 

-문제점:

(1) 두 단어의 거리가 사과와 강아지만큼 멀어진다는 문제 >> 즉, 의미 정보를 아예 못 담아서 단어 간의 유사도 계산이 어려우며(의미 결여)

(2) 단어 수가 증가하면 0이 무한대 증가하는 차원의 저주 발생

 

2. 워드 임베딩(Word Embedding)과 Word2Vec

-워드 임베딩:

(1) 단어를 고정된 크기의 밀집 벡터(Dense Vector)로 표현하는 분산 표현 방식

(2) 소수점, 의미가 담긴 실수값으로 채워짐

(3) 학습을 통해 단어의 의미를 다차원 공간에 좌표로 나타내며, 비슷한 의미를 가진 단어들은 벡터 공간에서 서로 가까운 거리에 위치

 

-Word2Vec: 저차원에 단어의 의미를 여러 차원에 분산하여 표현하는 방식

 

(1) CBOW (Continuous Bag of Words): 맥락으로부터 타깃을 예측하는 용도의 신경망으로, 빈칸을 채우는 방법. 연산 속도가 빠르고 데이터셋이 작아도 어느 정도 성능이 나옴

(2) Skip-gram 방식: 중앙의 단어로부터 주변의 여러 단어를 예측하는 모델. 희소한 단어 의미를 정교하게 잡아내며, 더 어려운 상황에서 훈련이 된 만큼 단어의 분산 표현이 더 뛰어날 가능성이 높음

 

3. RNN (Recurrent Neural Network): 순환 신경망

-기존의 순전파 네트워크(FNN)는 한 방향으로만 데이터가 이동하기 때문에

 (1) 일정한 데이터가 연속되는 시퀀스 처리에 어려움이 있고 (2) 이전 단어가 무엇인지 기억하지 못함

-이를 해결하기 위해 등장한 RNN시계열 또는 순차 데이터를 예측하는 딥러닝 신경망 구조

 **입출력 단위: Sequence(연속적 나열)

 

 (1) 과거의 정보로 현재 및 미래의 입력에 대한 성능을 개선하는 순환구조 가짐

 (2) 이전 시간의 계산 결과가 현재의 계산에 다시 참조되어 모델이 기억력을 갖게 됨 - 재귀적 특징

 

-BPTT (Backpropagation Through time): RNN의 역전파 방법. RNN은 현재 오차가 과거 모든 시점과 연결되어 있어서 각 시점의 오차를 수정할 때 과거로 돌아가면 계산된 모든 시점의 가중치 변화량을 전부 더해 한꺼번에 업데이트

 

4. RNN의 문제점과 LSTM, GRU

-RNN의 문제점:

(1) 장기 의존성 문제: 시퀀스가 길어질수록 앞의 정보를 효과적으로 기억하거나 전달하는 데 어려움이 생기며, 문장이 너무 길어지면 RNN은 자기가 처음에 무엇을 읽었는지 망각

 

(2) 병렬화의 어려움: 순차적으로 데이터를 처리하기 때문에 병렬 연산이 어렵고 시간이 오래 소요

(3) 기울기 소실, 기울기 폭발: 모든 시점에서 동일한 가중치를 부여하므로 가중치가 너무 작으면 기울기 소실, 너무 크면 기울기 폭발 발생

 

-이러한 문제를 해결하기 위해 등장한 모델들

 

(1) LSTM (Long Short-Term Memory): 게이트 3개(Forget, Input, Output Gate)를 추가하여 은닉 셀의 어느 정보가 출력과 다음 은닉 상태까지 보내는지를 제어하여 장기 기억을 유지. 중요한 정보를 Cell state에 담아 멀리 보내고 불필요한 정보는 빠르게 삭제

(2) GRU (Gated Recurrent Unit): LSTM보다 구조가 간단하지만 유사한 성능을 내며 빠른 연산 가능. 게이트 2개(리셋 게이트, 업데이트 게이트)를 사용하며 파라미터가 적어 비교적 적은 데이터에서도 효율적


2교시 : Transformer & Attention

 

1. 기존 모델의 한계와 Attention의 등장

-전통적인 시퀀스 모델인 RNN, LSTM은 긴 문맥을 처리하는 데 한계가 있음

  ex_ 정보가 쉽게 소실, 순차적 연산으로 인한 느린 학습 속도, 병렬 처리 어려움, 장기 의존성 문제, 기울기 폭발 및 그래디언트 소실 문제

가 있습니다.

-기존 seq2seq 모델은 인코더가 입력 시퀀스를 하나의 벡터 표현으로 압축하고, 디코더는 이 벡터 표현을 통해 출력 시퀀스를 만들어냄 >> 인코더가 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스 정보가 일부 손실되기 때문에, 이를 보완하려고 Attention 등장
 

2. Attention 매커니즘

-Attention 매커니즘은 입력 문장의 모든 정보를 균일하게 압축하는 대신, 디코더가 문장을 생성할 때 필요한 부분만 선택적으로 참고할 수 있도록 함

-어텐션 함수를 통해 Query, Key, Value의 개념을 활용하여 유사도(Similarity)를 구함

  • Query : 디코더에서 입력된 현재 단어(or 상태)에 대한 정보
  • Key : 인코더에서 각 입력 단어(토큰)의 특성 (쿼리와 키 유사도가 높을수록 정답일 확률 높아짐)
  • Value : 인코더에서 각 단어가 가지고 있는 실제 정보

3. Attention 작동 원리

-Attention 함수 동작 단계

(1) Query, Key의 유사도 계산(Attention Score 계산): Query와 Key의 내적을 통해 관련성을 계산. Q, K의 내적을 $d_k$ 차원의 루트만큼으로 나눠주는 스케일링 작업(Scaled Dot-Product Attention) 진행

(2) Softmax를 통해 가중치 계산: Softmax 함수에 어텐션 스코어의 집합을 통과시켜 0과 1 사이의 각 입력 단어 각각에 대한 가중치 생성(합이 1이 되는 확률적 가중치)

(3) Value의 가중합(Weighted Sum) 계산: 어텐션의 최종 결과값인 어텐션 값을 얻기 위해 각 인코더의 은닉 상태와 어텐션 가중치 값들을 곱하고 더하는 가중합 진행

 

  

4. Self-Attention

-Self-Attention은 말 그대로 Attention을 자기 자신한테 취하는 것을 의미. 다른 네트워크 정보를 보는 것이 아니라 인코더 안에서 입력된 단어들끼리 서로를 바라보는 구조

  • 목적 : 문장에서의 단어들의 연관성을 알기 위함
  • 특징 : 문법적/의미적 연관성을 모델 스스로가 파악하게 해줌
  • 예시 : "The animal didn't cross the street because it was too tired."라는 문장에서 'it'이 'animal'을 가리킨다는 것을 컴퓨터가 쉽게 파악할 수 있도록 도움

-Self-Attention에서는 Query, Key, Value의 시작 값이 동일 (= $Q, K, V$가 동일 문장에서 나옴)

 하지만 $Q, K, V$가 완전히 동일하다는 의미는 아니며, 중간에 학습되는 weight W값에 의해 최종적인 $Q, K, V$ 값은 달라지게 됨

 

-Self-Attention은 다음의 수식을 통해 계산: $$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$$

 

-상관관계 파악과 병렬 처리

(1) 상관관계 파악: 모든 단어들에 대해 Self-Attention을 수행하면 자기 자신에 대한 Attention 값이 가장 크게 나타나며, 문맥적으로 연관 있는 단어(ex_ 'I'와 'Student') 간의 상관관계도 높게 나타남

(2) 병렬 처리: 단 한 번의 거대한 행렬곱을 통해 여러 단어를 병렬로 처리하여 Attention을 계산할 수 있으며, 이로 인해 연산 속도가 빨라짐

5. Transformer architecture

-Transformer는 기존의 seq2seq처럼 인코더-디코더 구조는 유지하지만, 인코더와 디코더라는 단위가 N개로 구성되는 구조로 시간순이 아님!!

 

(1) 셀프 어텐션(Self-Attention): 다른 네트워크 정보를 보는 게 아닌 인코더 안에서 입력된 단어들끼리 서로를 바라보는 것. 문장에서의 단어들의 문법적/의미적 연관성을 모델 스스로가 파악하기 위해 사용

(2) 병렬 처리: 단 한 번의 거대한 행렬곱으로 실제로 여러 단어를 병렬로 처리해 Attention 계산. 순차 처리가 아닌 병렬 처리를 통해 속도가 향상

(3) 포지셔널 인코딩(Positional Encoding): Transformer는 단어 입력을 순차적으로 받는 방식이 아니므로 단어의 위치 정보를 다른 방식으로 알려줄 필요가 있어, 위치정보를 인위적으로 주입함. 단어 고유의 뜻을 가진 임베딩 벡터 위에 위치 정보들을 더해 모델의 입력으로 사용

 

-트랜스포머가 위치 정보를 가진 값을 만들기 위해 사용하는 함수

-변수로는 pos(입력 문장에서의 임베딩 벡터 위치), i(임베딩 벡터 내 차원의 인덱스), d_model(transformer의 모든 층의 출력 차원을 의미하는 하이퍼파라미터)등 사용

-임베딩 벡터 내 각 차원의 인덱스에 따른 함수 적용

  • 짝수인 경우 : $(pos, 2i)$ 사인(sin) 함수 값
  • 홀수인 경우 : $(pos, 2i+1)$ 코사인(cos) 함수 값 

-최종 효과

(1) 모델이 상대적인 위치 정보 쉽게 학습

(2) positional encoding 방법을 사용하면 순서 정보가 보존

(3) 각 임베딩 벡터에 positional encoding 값을 더하면 같은 단어라 하더라도 문장 내 위치에 따라서 transformer 입력으로 들어가는 임베딩 벡터 값이 달라짐\

(4) 결론적으로 트랜스포머 입력은 순서 정보가 고려된 임베딩 벡터인 것

 

-Transformer의 핵심 원리 & 강점

  • Self-Attention 매커니즘 : 입력 데이터의 모든 부분이 서로의 관계를 고려해 처리
  • 한계 극복 : 기존 순차적 처리 방식의 한계를 극복하고, 특히 긴 문장이나 복잡한 데이터 처리에 매우 효과적
  • 병렬 처리 가능 : 순차 처리가 아닌 병렬 처리를 통해 속도가 향상
  • 장기 의존성 학습 : 먼 거리에 있는 단어들 간의 관계를 효과적으로 학습
  • 다양한 작업 적용 가능 : 자연어 처리 외에도 이미지, 음성 등 다양한 분야에 적용 가능합 

 

6. additional Q&A

 Q. "seq2seq 모델과 비교했을 때 Attention이 해결한 가장 큰 문제점은 무엇인가?"

 A. 기존 seq2seq 모델은 인코더가 입력 시퀀스를 하나의 벡터로 압축하는 과정에서 입력 시퀀스 정보가 일부 손실됨. Attention은 입력 문장의 모든 정보를 균일하게 압축하는 대신, 디코더가 문장을 생성할 때 필요한 부분만 선택적으로 참고할 수 있도록 도움을 주어 이 문제를 해결함

 

 Q. "Self-Attention 연산에서 $d_k$로 나누는 이유는 무엇인가?"

 A. $d_k$가 커질수록 내적 분산값이 커지기 때문. 따라서 Q, K의 내적을 $d_k$ 차원의 루트만큼으로 나눠주는 스케일링 작업이 필요

 

 Q. "왜 Transformer는 RNN 없이도 문장의 순서를 이해할 수 있는가?"

 A. 각 단어의 임베딩 벡터에 위치 정보들을 더해 모델의 입력으로 사용하는 포지셔널 인코딩 때문. 이 값을 더하면 같은 단어라 하더라도 문장 내 위치에 따라서 transformer 입력으로 들어가는 임베딩 벡터 값이 달라지며, 모델이 상대적인 위치 정보를 쉽게 학습하고 순서 정보가 보존됨


3교시 : 생성형 AI와 LLM, RAG, AGENT까지

1. 생성형 AI와 LLM

-생성형 AI란 기존 데이터를 그대로 외우는 것이 아니라 데이터가 만들어지는 패턴과 구조를 학습해서 새로운 데이터를 만들어내는 모델

-즉, 완전히 랜덤한 것이 아니라 학습한 데이터와 비슷한 특징을 가지면서도 이전에 존재하지 않았던 결과를 만들어냄

-판별 모델이 '이 데이터는 무엇인가?(고양이 vs. 강아지 분류)'를 해결한다면,

  생성 모델은 '새로운 데이터 생성(새로운 고양이 이미지 생성)'을 수행

생성형 AI는 데이터의 확률 분포를 학습한다는 점이 특징

 -이 중에서도 수많은 텍스트 데이터를 학습하여 언어의 규칙과 패턴을 이해하고,

 이를 바탕으로 자연스러운 문장을 생성하는 인공지능이 바로 대규모 언어 모델(LLM)

 

-생성형 AI가 데이터를 만드는 방법 : 학습 단계 + 생성 단계

(1) 학습 단계

  • 데이터의 구조와 패턴을 학습하여 어떤 형태가 자연스러운지 파악
  • 사용 데이터: 텍스트, 이미지, 멀티모달(이미지 + 텍스트)
  • 중요한 과정: 데이터 수집 ➔ 노이즈 제거 ➔ 필터링 ➔ 고품질 데이터 셋 생성!!

(2) 생성 단계 : 학습한 패턴을 바탕으로 확률적으로 가장 자연스러운 결과를 만들며, 이 과정에서 '잠재 변수'가 중요

 **잠재 변수(Latent Variable)란? 데이터로부터 직접적으로 관찰되지 않는, 데이터를 구성하는 숨겨진 핵심 특징

 

2. 생성형 AI의 대표적인 방식들

-잠재 변수를 활용하여 데이터를 생성하는 대표적인 모델들: z라는 잠재변수를 사용

(1) Generative Adversarial Networks (GANs)

  • 생성기와 판별기가 경쟁적으로 학습하여 기존의 데이터와 유사한 새로운 데이터를 생성하는 모델
  • 생성기는 잠재 변수(z)를 사용해 가짜 데이터를 생성
  • 판별기는 생성기가 만든 가짜 데이터와 실제 데이터를 구별하도록 훈련
  • 두 네트워크가 서로 경쟁하며 학습을 진행 ⇒ 점점 실제 데이터와 유사한 데이터를 생성

(2) Variational Autoencoders (VAEs)

  • 인코더(Encoder)와 디코더(Decoder)로 구성된 모델
  • 인코더는 고차원의 입력 데이터를 저차원의 잠재 변수(z)로 변환
  • 디코더는 이 잠재 변수를 다시 원래의 고차원 데이터로 복원하여 새로운 데이터를 생성
  • 인코더는 잠재 변수의 평균과 표준 편차를 예측 ⇒ 잠재 변수를 정규 분포에서 샘플링하여 출력 ⇒ 데이터의 저차원 표현을 학습

(3) 확산 모델 (Diffusion Model)

  • 데이터에 노이즈를 추가하고 다시 복원하는 방식으로 새로운 데이터를 생성하는 모델
  • 순방향 확산(Forward Diffusion)과 역방향 확산(Reverse Diffusion)을 통해 이루어짐
  • 순방향 확산에서는 데이터를 점진적으로 노이즈화하여, 원래의 입력 데이터(x0)를 완전히 노이즈화된 상태(xT)로 변환
  • 역방향 확산에서는 노이즈화된 상태를 단계적으로 원래의 입력 데이터와 유사한 새로운 데이터로 복원. 이 과정을 여러 번 반복하며, 특히 이미지 생성에 유리

-자기회귀 모델 (Transformer 주로 사용)

  • 이전 데이터를 바탕으로 다음 데이터를 하나씩 생성하는 모델
  • "I" 다음에 "am"이 자주 나오면 "I am"을 생성하는 방식

-생성형 AI는 데이터의 구조를 학습해 새로운 데이터를 만들어내는 기술이기 때문에,

 데이터에 매우 강하게 의존하며 어떤 데이터를 학습했는지가 모델의 성능과 결과를 결정

 

 3. LLM의 원리와 특성

-LLM은 Large Language Model의 약자로, 대량의 텍스트 데이터를 학습하여 인간과 유사한 언어를 생성하는 모델

  • 매우 큰 데이터로 학습
  • 매우 많은 파라미터를 가짐
  • 다양한 언어 작업 수행 가능 : 문장 생성, 질문 응답, 번역, 요약과 같은 다양한 작업을 하나의 모델로 수행 가능

-Next Token Prediction

  • 이전 단어들을 보고 다음에 올 가장 자연스러운 단어를 선택
  • 예를 들어 "I am a" 다음 단어 확률이 student (0.6), developer (0.3), teacher (0.1)일 때, 가장 확률이 높으니까 다음에 올 단어로 얘를 선택하고 여기서 하나 선택을 반복하여 문장이 만들어짐
  • 즉, LLM은 생각해서 답하는 것이 아니라 가장 자연스러운 다음 단어를 계속 이어붙이는 모델

-LLM의 성능이 좋은 이유

(1) 데이터 규모: 인터넷, 책, 뉴스 등 방대한 텍스트 데이터를 학습하기에 다양한 표현과 지식을 학습할 수 있음

(2) 모델 크기: 수억~수십억 개 이상의 파라미터를 가짐으로써 복잡한 패턴까지 학습 가능

(3) 전이 학습: 한 번 학습된 모델을 여러 작업에 그대로 사용할 수 있으며, 하나의 모델로 여러 문제(예: 번역, 요약, 질문 응답) 해결 가능

(4) 기존 모델과의 차이점: 트랜스포머 구조 덕분에 문장 전체의 문맥을 고려할 수 있게 되면서, 실제로 "문맥을 이해하는 것처럼 보이는" 성능을 가지게 됨

 

-프롬프트 생성 전략 : LLM은 입력 방식에 따라 성능이 크게 달라지는데, 이 입력을 프롬프트라고 함

 즉, 같은 모델이라도 어떻게 질문하느냐에 따라 완전히 다른 결과가 나올 수 있음

 

(1) In-context learning (문맥 기반 학습) : 프롬프트 안에서 포함된 예시를 보고 학습

  • Zero-shot: 예시 없이 바로 요청 ex_ 이 문장을 영어로 번역해줘
  • One-shot: 예시 1개 제공
  • Few-shot: 예시 여러 개 제공 ex_ 고양이 - 동물, 장미 - 식물, 독수리 - ?

(2) 프롬프트 엔지니어링 : 단순 질문이 아니라 모델이 잘 이해하도록 설계

  • 대표 전략: 역할 부여(너는 데이터 분석가야), 출력 형식 지정(표로 정리해줘), 단계적 사고 유도 / Chain-of-Thought(과정을 단계별로 설명해줘)

-생성 방식 제어 : LLM이 항상 같은 답을 하지 않는 이유는 매 순간 다음 단어의 확률 분포를 계산하기 때문

 **샘플링 파라미터들은 LLM의 출력 스타일을 결정

  • temperature (창의성 조절): 확률을 얼마나 랜덤하게 쓸지를 결정. 낮음(0~0.3)은 항상 비슷한 답을 내어 안정적, 정확한 작업에 적합하고, 높음(0.7~1.0)은 다양한 표현을 내어 창의적 생성에 적합
  • top-k: 상위 k개 단어만 후보로 사용 (너무 이상한 단어 선택 방지)
  • top-p (nucleus sampling): 확률의 누적 합이 p가 될 때까지 후보를 선택하여 상황에 따라 유연하게 선택

-LLM의 학습 방식과 한계

(1) 사전 학습: 대량의 텍스트 데이터를 통해 언어 구조 학습

(2) 추가 학습(튜닝): 특정 작업에 맞게 조정하고 사람의 의도를 반영. 기본 LLM은 단순히 다음 단어를 예측할 뿐이라서, '똑똑하지만 말을 잘 못 알아듣는 상태'이므로 다음 두 과정이 필요

  • Instruction Tuning : 사람이 "이렇게 답하라"는 예시를 주고 학습시키는 과정. 질문 형태를 이해하고 그에 맞는 답변 스타일을 학습
  • RLHF (Reinforcement Learning with Human Feedback) : 사람이 "이 답이 더 좋다"라고 평가해서 모델을 더 개선하는 과정. 같은 질문에 대해 여러 답을 생성하고 사람이 더 좋은 답을 선택하여 그 기준을 학습해 좋은 답을 더 많이 생성하도록 보정

 (3) LLM의 근본적 한계 : (1) Hallucination (2) 최신 정보 및 도메인 특화 지식 부족 (3) 긴 문맥 처리 제한 (4) 낮은 신뢰도 (출처 제시가 어려움)

 

4. LLM의 한계와 RAG의 개념과 구조

-LLM의 한계: (1) Hallucination (2) 최신 정보 및 도메인 특화 지식 부족 (3) 보안 문제

-이를 해결하기 위해 RAG(Retrieval-Augmented Generation)가 도입. RAG는 모델을 새로 학습시키지 않고, 외부 지식을 검색(Retrieval)하여 답변을 생성(Generation)하는 기술

 

-RAG의 구조

 (1) Vector DB에 문서 수치화 저장

 (2) 질문과 유사한 문서 조각(Context) 검색(Retriever)

 (3) 검색된 외부 지식을 바탕으로 정확하고 근거 있는 답변 생성(Generation)

 

-RAG의 장점

 (1) 최신 정보 반영 가능 : 외부 데이터베이스를 사용하기 때문

 (2) 정확도 향상 : 관련 문서를 기반으로 답변

 (3) 출처 제공 가능 : 어디서 나온 정보인지 설명 가능

 (4) Hallucination 감소 : 모델이 추측하지 않고 근거 기반으로 답변

 (5) 범용성 유지 : 모델을 다시 학습하지 않아도 됨

 

5. 능동적인 인공지능: Agent와 Multi Agent

(1) Agent: 스스로 환경을 인지하고, 도구를 사용하여 계획을 세우고 행동하여 목표를 달성하는 능동적인 인공지능 시스템

  • 자율성 : 사람의 직접적인 개입 없이 작업을 수행할 수 있음
  • 반응성 : 환경 변화나 새로운 입력에 맞춰 행동을 바꿈
  • 목표 지향성 : 주어진 목표를 달성하기 위해 행동을 계획함
  • 학습 능력 : 경험을 통해 점점 나은 결과를 만듦

-Agent의 기본 구조 및 도구(Tools)

 하나의 모델에 모든 역할을 맡기기보다 생각(모델) → 계획(오케스트레이션) → 실행(도구)라는 분업 구조로 동작

 (1) Model (Think): 대화를 이해하고 추론하며 콘텐츠를 생성하는 지능의 핵심 ex_ Gemini, GPT, Copilot, Claude 등

 (2) Orchestrator (Coordinate): 요청의 목적을 해석하고 어떤 도구를 어떤 순서로 사용할지 계획. 상태를 유지하며 흐름을 제어

 (3) Tools (Act): 외부 API, 함수, 데이터 저장소 등을 활용해 실제 행동을 수행 ex_ 문서 생성, 캘린더 등록, 시스템 제어 등

 

※ 중요: 도구는 단순히 API가 아님!! 단순한 호출 수단이 아니라 에이전트가 환경과 상호작용 할 수 있도록 만드는 실행의 핵심

 

-Types of AI Agent Tools

  • Extensions(확장) : 브라우저 제어, 문서 열기 등 외부 인터페이스 확장
  • Functions(함수) : 특정 작업을 수행하는 사용자 정의 함수 
  • Data Stores(데이터 저장소) : RAG 기반 검색 및 개인화된 정보 저장소

-목적 달성을 위한 Agent 사고 전략

 (1) ReAct : 판단과 실행을 연속적으로 수행. 빠른 대응과 반복 작업이 필요한 경우에 적합

 (2) CoT / Chain of Thought : 문제 해결을 위한 중간 사고 과정을 단계적으로 서술. 일의 순서를 짜야하며, 절차가 복잡하거나 조건이 많은 작업에 적합

 (3) ToT / Tree of Thought : 여러 아이디어를 병렬로 전개한 후 장단점을 비교. 창의적 문제 해결과 옵션 비교에 적합

 

-Agent의 확장: Agentic AI와 Multi-Agent

(1) Agentic AI

-여러 Agent가 협력하여 하나의 큰 목표를 해결하는 시스템

-하나의 AI Agent는 단일 작업만 수행하는 도구이며, Agentic AI는 여러 정보를 기반으로 스스로 판단하고 행동

-특징:

  • 고도의 자율성: 목표를 스스로 정의하거나 구체화함
  • 멀티 에이전트 협업: 여러 agent가 역할을 나눠 협력
  • 동적 계획 수정: 상황에 따라 계획을 계속 수정
  • 복잡한 문제 해결: 단일 모델로 어려운 문제 해결 가능

 

(2) Multi-Agent 구조의 핵심 구성 요소

  • 명확한 역할 정의: 각 에이전트는 하나의 전문적인 역할을 맡음 (각 에이전트는 하나의 특정 전문 영역을 담당)
  • 에이전트 간 통신: 서로 독립적으로 존재하지만 필요할 때 정보를 주고받으며 협력함 ex_ A2A: Agent-to-Agent 직접 소통 방식

-협업 방식

 (1) 오케스트레이션 방식: 중앙 컨트롤러가 전체 흐름을 관리하며 각 에이전트에 작업을 분배

 (2) 코레오그래피 방식: 중앙 없이 에이전트들이 자율적으로 협력하며 서로 소통하며 작업을 진행

 

6. 최신 LLM 및 Agent 기술 동향

(1) Openclaw (2026.02): openclaw를 활용해서 만든 office, multi-agent 사례

(2) Figma AI Agent

(3) Anthropic - computer use: openclaw의 기능을 클로드 폰 앱에 넣은 것

 

(4) 나의 최신 기술 소개

DPO(Direct Preference Optimization) : DPO는 복잡한 강화학습 절차를 생략하고, 사람이 선호하는 답변 데이터를 직접 모델에 주입하여 LLM의 '말투와 태도'를 가장 효율적으로 교정하는 기술

  • 직접적인 선호도 학습: 사람이 선택한 '더 좋은 답변'과 '나쁜 답변'의 페어가 주어지면, 모델이 좋은 답변이 나올 확률은 높이고 나쁜 답변이 나올 확률은 낮추도록 직접적으로 손실 함수(Loss Function)를 계산
  • 수학적 단순화: 복잡한 강화학습 알고리즘 대신 단순한 이진 분류(Binary Classification) 문제처럼 접근하여 모델을 업데이트

 

  • 효율성: 별도의 보상 모델을 만들 필요가 없어 학습 과정이 훨씬 가볍고 빠름
  • 안정성: 강화학습 특유의 하이퍼파라미터 민감도 문제가 없어 성능이 안정적
  • 대중화: 현재 Llama 3, Mistral 등 대다수의 최신 오픈소스 LLM들이 사람의 말투를 배우는 마지막 '미세 조정(Fine-tuning)' 단계에서 이 DPO 방식을 채택 중