확률적 모델에서 대형 언어 모델까지: NLP의 패러다임 변화

태그

HR Tech

시작하며

언어 모델의 발전 과정

확률적 언어 모델 (SLM: Statistical Language Models)

신경망 기반 언어 모델 (NLM: Neural Language Models)

사전 학습된 언어 모델(Pre-trained Language Models, PLM)

대형 언어 모델(Large Language Models, LLM)

LLM으로 혁신하는 채용시장: 탤런트시커의 접근 방식

1️⃣ 수행업무 중심의 인재 매칭

2️⃣ 채용 데이터의 효율적 활용

3️⃣ 백오피스 자동화 및 AI 지원

탤런트시커 LLM이 주는 새로운 가능성

참고문헌

시작하며

인공지능(AI) 기술의 급격한 발전은 자연어 처리(NLP) 분야에서도 혁신적인 변화를 가져왔습니다. 특히, 언어 모델(Language Model)의 진화는 텍스트의 의미를 이해하고 생성하는 방식에서 비약적인 발전을 이루어냈습니다. 초기에는 확률적 언어 모델(SLM)이 등장해 언어 패턴을 학습하고 이를 기반으로 텍스트 예측 작업이 이루어졌습니다. 하지만 이러한 모델은 긴 문맥을 이해하거나 복잡한 언어적 뉘앙스를 파악하는 데 한계를 보였습니다.

이 한계를 극복하기 위해 등장한 것이 신경망 기반 모델(NLM)입니다. 이러한 모델은 단어를 분산 표현(Distributed Representation)으로 학습하며, 문맥을 반영한 언어 이해 능력을 대폭 향상시켰습니다. 이후 Attention 메커니즘과 Transformer 아키텍처의 도입으로 언어 모델은 더욱 강력하고 유연한 구조로 진화했습니다. 이러한 기술적 진보는 BERT, GPT와 같은 사전 학습된 모델(PLM)의 개발로 이어졌고, 나아가 대형 언어 모델(LLM)이 등장하며 NLP는 새로운 전환점을 맞이했습니다.

오늘날의 대형 언어 모델(LLM)은 수십억 개의 파라미터를 기반으로 텍스트 생성, 질문 답변, 기계 번역 등 다양한 작업에서 탁월한 성능을 발휘하고 있습니다. 특히, 제로샷 학습(Zero-shot Learning)과 피드백 기반 학습 기술은 새로운 태스크에 대한 유연성을 극대화하며, 고객 지원 자동화, 데이터 분석, 콘텐츠 생성 등 다양한 산업에 걸쳐 응용되고 있습니다.

이러한 혁신은 채용 시장에도 큰 영향을 미치고 있습니다. 탤런트시커는 LLM 기술을 활용해 기존 채용 프로세스의 한계를 극복하며, 기업과 인재를 연결하는 방식을 혁신하고 있습니다. 예컨대, 지원자의 실제 수행 경험과 역량을 중심으로 기업에 적합한 인재를 추천하거나, 채용 과정의 복잡한 백오피스 작업을 자동화하여 효율성을 극대화하고 있습니다.

이번 글에서는 언어 모델의 발전 과정을 확률적 모델, 신경망 기반 모델, 사전 학습 모델, 대형 언어 모델의 네 가지 단계로 나누어 살펴봅니다. 각 단계에서 이루어진 주요 기술적 혁신과 그 의미를 정리하며, 이러한 혁신이 NLP 기술의 한계를 어떻게 극복했는지 탐구할 것입니다. 더불어, 탤런트시커가 LLM을 활용해 채용 시장에서 만들어가고 있는 변화와 새로운 가능성에 대해서도 함께 소개합니다.

언어 모델의 발전 과정

이 단락에서는 언어 모델의 발전 과정을 확률적 언어 모델(Statistical Language Models, SLM)에서부터 대형 언어 모델(Large Language Models, LLM)에 이르기까지의 주요 전환점과 발전을 다룹니다. 언어 모델은 자연어 처리(NLP) 분야에서 중요한 역할을 하며, 텍스트 데이터의 의미를 이해하고 예측8하는 데 필수적인 도구로 자리잡았습니다. 초기에는 확률적 모델을 통해 언어의 패턴을 학습했으며, 이후 신경망 기반 모델로의 전환을 통해 더 정교하고 유연한 언어 처리 방식이 등장했습니다. 최근에는 사전 학습된 모델(PLM)과 대형 언어 모델(LLM)의 도입으로 NLP의 성능이 비약적으로 향상되었습니다. 본 단락에서는 각 모델의 발전 과정을 따라가며, 이들이 어떻게 더 정교한 언어 이해와 예측을 가능하게 했는지 설명하고자 합니다.

확률적 언어 모델 (SLM: Statistical Language Models)

확률적 언어 모델(Statistical Language Models, SLM)은 1990년대에 등장한 초기 언어 모델로, 마르코프 가정(Markov Assumption)을 기반으로 다음 단어를 예측하는 방식입니다. 이 모델은 주로 n-그램 모델(n-gram model)로 구현되며, 이전 n개의 단어를 바탕으로 다음 단어를 예측합니다. 예를 들어, 빅램(bigram) 모델은 두 단어를 기반으로, 트라이그램(trigram) 모델은 세 단어를 기반으로 예측을 수행합니다. 일반적인 n-그램 모델에서 주어진 문장 "I love TalentSeeker"에 대해, 트라이그램 모델은 아래와 같은 방식으로 예측을 수행할 수 있습니다:

P(TalentSeeker\ | \ I \ love) = {{count(I \ love \ TalentSeeker)}\over{count(I \ love)}}

여기서,

P(TalentSeeker\ | \ I \ love)

는 "I love"라는 앞선 두 단어를 기반으로 "TalentSeeker"가 올 확률을 나타냅니다.

그러나 이러한 모델은 차원의 저주(curse of dimensionality) 문제에 직면하게 됩니다. 고차원의 모델을 만들기 위해서는 전이 확률(transition probability)을 추정해야 하며, 이는 많은 데이터를 요구하고, 드물게 나타나는 단어들에 대해 모델의 성능이 떨어지는 문제를 일으킵니다. 예를 들어, 문장에서 "I love TalentSeeker"와 같은 문맥이 드물게 나타날 경우, 트라이그램 모델은 이 확률을 제대로 추정하지 못할 수 있습니다. 이를 해결하기 위해 백오프 추정(backoff estimation)과 굿-튜링 추정(Good-Turing estimation) 같은 스무딩 기법(smoothing techniques)이 제안되었으나, 여전히 고차원 데이터의 희소성(sparsity) 문제를 완전히 해결하기에는 한계가 있었습니다.

예를 들어, 트라이그램 모델에서 굿-튜링 추정을 사용하면, 드물게 등장하는 트라이그램에 대해 확률을 재조정할 수 있습니다. 굿-튜링 스무딩에서는 드물게 등장한 단어 조합의 확률을 보다 일반적인 단어 조합의 확률을 바탕으로 재추정하는 방식으로 희소성을 완화합니다. 하지만 이러한 기법들도 여전히 고차원 데이터에서 발생하는 희소성 문제를 완전히 해결하지 못했습니다. 이로 인해 보다 정교한 언어 모델링 기법이 필요하게 되었고, 결국 신경망 기반 언어 모델(NLM)이 등장하게 되었습니다.

신경망 기반 언어 모델 (NLM: Neural Language Models)

신경망 기반 언어 모델(Neural Language Models, NLM)은 딥러닝 기술을 활용하여 단어 시퀀스의 확률을 모델링하는 접근법으로, 다층 퍼셉트론(Multilayer Perceptron, MLP)과 순환 신경망(Recurrent Neural Network, RNN) 등을 포함한 다양한 신경망 모델들이 사용됩니다. 이러한 모델들의 가장 큰 기여는 단어의 분산 표현(distributed representation)을 도입한 것입니다.

전통적인 확률적 언어 모델에서는 각 단어를 독립적인 단위로 취급하며, 단어 간의 관계를 명시적으로 모델링하기 어려운 한계가 있었습니다. 그러나 신경망 기반 모델에서는 단어를 고차원 벡터 공간에 임베딩(embedding)하여 단어들 간의 의미적 관계를 학습할 수 있습니다. 이러한 분산 표현은 각 단어를 실수값의 벡터로 변환하며, 비슷한 의미를 가진 단어들은 벡터 공간상에서 가깝게 배치되도록 학습됩니다. 예를 들어, word2vec과 같은 기법을 통해 단어들을 고차원 벡터로 변환하고, 이 벡터들이 문맥에 맞게 학습되도록 하여 단어 간의 관계를 파악하게 했습니다.

word2vec은 신경망 기반 언어 모델의 대표적인 예로, 주어진 문맥을 바탕으로 단어의 임베딩을 학습하는 기법입니다. Skip-gram과 CBOW(Continuous Bag of Words) 방식으로 학습할 수 있으며, Skip-gram 방식은 주어진 단어로부터 주변 단어를 예측하고, CBOW 방식은 주어진 주변 단어들로부터 중심 단어를 예측하는 방식입니다. 이를 통해 단어 간의 유사성을 학습할 수 있고, 예를 들어, ‘왕’과 ‘여왕’, ‘남자’와 ‘여자’ 같은 단어쌍들이 벡터 공간에서 서로 가까운 위치에 배치되는 방식으로 동작합니다.

신경망 기반 언어 모델은 단순히 단어 시퀀스를 모델링하는 것에서 나아가, 언어 표현 학습(representation learning)을 통해 자연어 처리(NLP) 작업에서 중요한 역할을 하게 됩니다. 언어 모델이 학습한 단어의 벡터 표현은 문장 수준, 문맥 수준에서의 의미를 파악하는 데 유용하게 활용될 수 있습니다. 예를 들어, 감정 분석(sentiment analysis), 기계 번역(machine translation), 질문 응답 시스템(question answering)과 같은 다양한 NLP 작업에서 신경망 기반 모델들이 뛰어난 성능을 보였습니다.

이와 같은 언어 표현 학습의 장점은 신경망 모델이 단어의 의미를 학습하는 과정에서 문맥을 이해하고, 그 의미를 연속적인 벡터 공간으로 매핑할 수 있다는 것입니다. 예를 들어, “Apple is a tech company”와 “Apple is a fruit”와 같은 문장에서 “Apple”이라는 단어의 의미를 문맥에 맞게 다르게 해석할 수 있게 됩니다. 이 방식은 전통적인 단어-단어 매핑 방식보다 훨씬 더 정교한 의미를 파악할 수 있게 도와줍니다.

또한, 순환 신경망(RNN)과 같은 구조를 사용하면 시간적인 문맥을 잘 반영할 수 있어 자연어 문장을 순차적으로 처리하는 데 유리합니다. RNN은 이전 상태를 기억하며 다음 상태를 예측하기 때문에, 문장의 앞부분에서 나온 정보가 뒷부분에 영향을 미칠 수 있도록 학습됩니다. 이러한 특징 덕분에 RNN 기반 모델은 긴 문맥을 처리하는 데 있어 기존의 n-그램 모델보다 더 우수한 성능을 발휘할 수 있습니다. 또한, LSTM(Long Short-Term Memory)이나 GRU(Gated Recurrent Unit)와 같은 구조는 장기적인 의존성(long-term dependencies)을 더 잘 처리할 수 있도록 발전하였습니다.

이후 어텐션(Attention) 메커니즘이 도입되면서 신경망 기반 언어 모델은 더 발전하게 되었습니다. 어텐션 메커니즘은 모델이 입력 시퀀스의 중요한 단어에 집중하여, 문맥을 더욱 효율적으로 파악할 수 있도록 도와줍니다. 이는 전통적인 RNN이나 LSTM 모델이 가지던 순차적인 정보 처리의 한계를 극복할 수 있게 했습니다. 어텐션은 입력 시퀀스의 각 단어와 출력 단어 간의 관계를 계산하여, 특정 단어에 더 높은 가중치를 두는 방식으로 작동합니다.

이러한 어텐션 메커니즘은 트랜스포머(Transformer) 모델에 통합되어 자기 어텐션(self-attention) 기법으로 확장되었습니다. 트랜스포머는 인코더(encoder)와 디코더(decoder) 구조를 통해 긴 문맥을 효율적으로 처리하고, 병렬 처리가 가능하여 학습 속도도 크게 향상되었습니다. 트랜스포머 모델은 이후 BERT와 GPT와 같은 사전 학습된 언어 모델(PLM)의 기초가 되었으며, 자연어 처리 분야에서 많은 혁신을 가져왔습니다

사전 학습된 언어 모델(Pre-trained Language Models, PLM)

사전 학습된 언어 모델(PLM)은 대규모 텍스트 데이터를 이용하여 사전 학습된 후, 특정 자연어 처리(NLP) 작업에 맞게 미세 조정(fine-tuning)하여 성능을 극대화할 수 있는 모델입니다. PLM은 문맥에 맞는 단어 표현을 학습하며, NLP 작업에 필요한 문맥 정보와 언어적 특성을 잘 포착할 수 있게 도와줍니다. 대표적인 사전 학습된 언어 모델로는 ELMo와 BERT가 있습니다.

ELMo(Embeddings from Language Models)는 양방향 LSTM을 사용하여 문맥에 따라 변화하는 단어 표현을 학습하는 방식으로, 각 단어의 의미를 주변 문맥에 따라 다르게 모델링합니다. ELMo의 주요 혁신은 단어의 표현이 고정된 값이 아니라, 문맥에 따라 동적으로 변화한다는 점입니다. 예를 들어, 'bank'라는 단어가 '강'을 의미하는지, '은행'을 의미하는지에 따라 다른 표현을 생성할 수 있게 됩니다. ELMo는 이와 같은 동적인 단어 표현을 통해, 기존의 정적인 임베딩 방식의 한계를 극복하였습니다. ELMo는 사전 학습된 모델을 기반으로, 이후 특정 NLP 작업에 맞는 미세 조정을 통해 성능을 향상시킬 수 있습니다.

BERT(Bidirectional Encoder Representations from Transformers)는 Transformer 아키텍처를 기반으로 한 모델로, 마스크된 언어 모델(Masked Language Model, MLM)과 다음 문장 예측(Next Sentence Prediction, NSP)을 통해 문맥 정보를 포괄적으로 학습하는 방식으로 설계되었습니다. BERT의 혁신적인 점은 양방향으로 문맥을 이해할 수 있다는 것입니다. 기존의 언어 모델들이 단방향으로 문맥을 처리하던 방식과 달리, BERT는 입력 텍스트의 모든 단어에 대해 양방향으로 문맥을 학습합니다. MLM은 텍스트의 일부 단어를 마스킹(masking)하고, 이 마스크된 단어를 예측하는 방식으로 학습합니다. 또한 NSP는 두 문장이 주어졌을 때, 두 문장이 연속적인 문장인지 아닌지를 예측하는 방식으로 문장 간의 관계를 학습할 수 있게 합니다. 이 방식은 BERT가 다양한 NLP 작업에서 뛰어난 성능을 보일 수 있게 했습니다.

사전 학습된 언어 모델은 특정 작업에 맞게 미세 조정하여 사용할 수 있기 때문에, 다양한 NLP 작업에서 뛰어난 성능을 보여주었습니다. 이러한 PLM은 텍스트 분류, 감정 분석, 기계 번역, 질문 응답 시스템(QA), 명명된 엔터티 인식(NER) 등 여러 작업에 광범위하게 적용되었습니다. PLM은 기존의 단어 임베딩 방식이나 RNN, LSTM 모델들과 비교하여, 더 높은 정확도와 효율성을 자랑합니다. 이 모델들은 대규모 데이터를 기반으로 언어적 지식을 학습하며, 각 단어 간의 의미적 관계를 보다 정교하게 반영할 수 있는 장점이 있습니다.

대형 언어 모델(Large Language Models, LLM)

대형 언어 모델(LLM)은 사전 학습된 언어 모델(PLM)을 확장한 모델로, 모델의 크기와 학습에 사용되는 데이터의 양을 크게 늘려 성능을 획기적으로 향상시킨 모델입니다. GPT-3와 PaLM 같은 대형 언어 모델은 수십억에서 수백억 개의 파라미터를 포함하고 있으며, 이러한 모델들은 미세 조정 없이도 뛰어난 성능을 보일 수 있는 능력을 가집니다.

대형 언어 모델의 핵심적인 성과 중 하나는 스케일링 법칙(scaling law)입니다. 연구자들은 모델 크기와 데이터 크기를 확장하면 성능이 점차 향상된다는 법칙을 발견했고, 이로 인해 GPT-3는 175B 파라미터를 통해 뛰어난 성능을 자랑합니다. 특히 GPT-3는 few-shot learning과 zero-shot learning을 통해 모델이 추가적인 학습 없이도 적은 수의 예시만으로 다양한 작업을 수행할 수 있게 되었습니다. 이는 모델이 텍스트 기반으로만 여러 가지 작업을 처리할 수 있게 해주며, 자연어 처리의 폭을 크게 확장시켰습니다.

대형 언어 모델은 문맥 학습(in-context learning)을 통해 학습할 수 있습니다. 이 방식은 모델이 주어진 문맥을 기반으로 새로운 작업을 학습하도록 돕습니다. 예를 들어, 대형 언어 모델은 주어진 텍스트만으로 문제를 해결하는 능력을 발휘할 수 있습니다. GPT-3와 같은 모델은 이러한 문맥 학습을 통해 새로운 데이터를 제공받지 않아도 기존에 학습된 정보만으로 문제를 해결할 수 있는 능력을 가집니다.

LLM은 기존 모델들이 보여주지 못한 새로운 특성(emergent abilities)을 발휘하기 시작했습니다. 예를 들어, 대형 언어 모델은 창의적인 글을 생성하거나, 문법적 오류를 수정하는 등의 작업에서 매우 고차원적인 능력을 발휘할 수 있습니다. ChatGPT와 같은 대형 언어 모델은 대화형 AI 분야에서 뛰어난 성능을 보이며, 사용자와의 상호작용에서 자연스러운 대화를 생성하고, 다양한 작업에서 창의적이고 유용한 결과를 도출할 수 있습니다.

대형 언어 모델은 그 크기와 학습 능력 덕분에 기존의 모델들이 해결하지 못한 문제를 해결하고 있으며, 다양한 분야에서 새로운 가능성을 열어가고 있습니다.

LLM으로 혁신하는 채용시장: 탤런트시커의 접근 방식

대형 언어 모델(LLM)의 발전은 채용 시장에도 새로운 가능성을 열고 있습니다. 탤런트시커는 LLM 기술을 활용해 기존 채용 프로세스의 한계를 극복하고, 기업과 인재를 연결하는 방식을 혁신하고 있습니다. 아래는 탤런트시커가 LLM을 기반으로 채용 시장을 변화시킨 주요 사례입니다.

수행업무 중심의 인재 매칭

기존의 채용 시스템은 주로 이력서에 의존해 후보자를 평가했습니다. 하지만 탤런트시커는 LLM 기반 분석을 통해 후보자의 실제 업무 수행 경험과 역량을 중심으로 매칭합니다.

•

예시: 특정 기술 스택을 요구하는 포지션에 대해, 지원자의 GitHub 활동, 블로그 글, 프로젝트 결과물을 분석하여 기업에 맞춤형 추천을 제공합니다.

채용 데이터의 효율적 활용

탤런트시커는 LLM으로 방대한 인재 데이터를 정교하게 분석하여 300만 명 이상의 글로벌 후보자 데이터베이스를 구축했습니다. 이를 통해 기업은 더 넓고 다양한 후보자 풀에서 적합한 인재를 발굴할 수 있습니다.

•

활용 사례: 특정 국가에서 원격 근무가 가능한 후보자나, 복합적인 기술 요건을 충족하는 인재를 빠르게 찾을 수 있습니다.

백오피스 자동화 및 AI 지원

탤런트시커는 LLM을 기반으로 한 백오피스 자동화 AI를 통해 채용 과정의 효율성을 극대화합니다. 복잡하고 시간이 소요되는 작업들을 자동화하여, 기업이 더 중요한 의사결정에 집중할 수 있도록 돕습니다.

•

개인화 이메일 작성: 후보자와의 커뮤니케이션을 간소화하기 위해, AI가 입력된 **채용 공고(JD)**와 후보자 정보를 분석하여 적합한 개인화 이메일을 자동으로 생성합니다. 이를 통해 기업은 맞춤형 접근 방식으로 후보자와 소통할 수 있습니다.

•

자동 후보자 추천: 사용자가 JD만 입력하면 AI가 해당 포지션에 적합한 후보자를 데이터베이스에서 분석 및 선별하여 추천합니다.

◦

예시: "프론트엔드 개발자" JD를 입력하면, 관련 기술 스택과 경험을 기준으로 AI가 즉시 적합한 후보자 목록을 제공합니다.

탤런트시커 LLM이 주는 새로운 가능성

탤런트시커는 LLM 기술을 채용 시장에 도입하며 다음과 같은 가치를 실현하고 있습니다:

•

시간 절약: 적합한 후보자를 빠르게 선별.

•

정확성 향상: 데이터 중심의 공정한 평가.

•

글로벌 인재 접근성 강화: 국경을 넘어 적합한 인재 발굴.

앞으로도 탤런트시커는 LLM 기술을 발전시키며 기업과 인재의 연결을 더 효율적이고 효과적으로 만들어갈 것입니다.

탤런트시커 LLM 기반 채용의 혁신을 지금 경험해 보세요!

Learn more about TalentSeeker

참고문헌

•

Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., ... & Wen, J. R. (2023). A survey of large language models. arXiv preprint arXiv:2303.18223.

•

Mikolov, T. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 3781.

•

Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., & Khudanpur, S. (2010, September). Recurrent neural network based language model. In Interspeech (Vol. 2, No. 3, pp. 1045-1048).

•

Sak, H., Senior, A. W., & Beaufays, F. (2014). Long short-term memory recurrent neural network architectures for large scale acoustic modeling.

•

Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.

•

Bahdanau, D. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.

•

Vaswani, A. (2017). Attention is all you need. Advances in Neural Information Processing Systems.

•

Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2227–2237. Association for Computational Linguistics.

•

Devlin, J. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

•

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.