쉽지만 강력한 클러스터링 직무 스킬셋 분석

태그

HR Tech

3단계: K-means 클러스터링 적용

4단계: 결과 분석

마치며

시작하며

클러스터링은 AI와 데이터 분석 분야에서 가장 오래된 기법 중 하나로, 지난 수십 년 동안 다양한 분야에서 널리 사용되어 왔습니다. 이는 그만큼 기본적이지만 강력한 도구라는 사실을 입증합니다. 특히, 직무 스킬셋 분석과 같은 HR 분야에서는 데이터를 단순화하고, 유사성을 기반으로 명확한 인사이트를 도출하는 데 여전히 효과적인 방법으로 자리 잡고 있습니다.

스탠포드 대학교의 인공지능 연구원 피터 노빅(Peter Norvig)은 다음과 같이 말한 바 있습니다:

"Simplicity is not the opposite of power. Sometimes, the simplest algorithms yield the most profound insights."

("단순함은 강력함의 반대가 아닙니다. 때로는 가장 단순한 알고리즘이 가장 심오한 통찰을 제공합니다.")

클러스터링은 바로 이러한 단순함 속에서 강력함을 발휘합니다. 예를 들어, K-means 알고리즘은 1950년대에 처음 개발된 이래로 데이터의 구조적 특성을 이해하는 데 있어 여전히 가장 기본적이고도 강력한 도구로 사용되고 있습니다. 이는 HR, 마케팅, 의료 분석 등 다양한 영역에서 인사이트를 도출하는 데 필수적인 방법으로 자리 잡고 있습니다.

특히 HR 분야에서는 직무 간 스킬셋의 유사성과 차이를 파악하는 데 있어 클러스터링이 유용하게 활용됩니다. 이는 직무별 요구사항을 명확히 정의하고, 적합한 인재를 식별하며, 채용 전략을 수립하는 데 강력한 도구로 작용합니다.

클러스터링은 비단 오래된 기술일 뿐만 아니라, 현대적인 AI와 머신러닝 기술과 결합했을 때 더욱 큰 잠재력을 발휘합니다. 이번 글에서는 이러한 클러스터링 기법을 활용해 직무 간 스킬셋 분석을 어떻게 효과적으로 수행할 수 있는지 살펴보겠습니다.

클러스터링이란?

클러스터링(Clustering)은 주어진 데이터 집합에서 유사한 데이터를 그룹화하는 비지도 학습 기법입니다. 주어진 데이터에서 각 데이터 포인트가 서로 얼마나 유사한지 계산하고, 비슷한 데이터들을 하나의 그룹으로 묶는 과정입니다. 클러스터링은 레이블이 없는 데이터를 유사성을 기준으로 나누기 때문에, 직무에 요구되는 스킬셋 간의 유사성을 파악할 때 매우 유용합니다. 예를 들어, 클러스터링을 통해 데이터 과학, 소프트웨어 개발, 마케팅 직무가 각각 어떤 기술 및 스킬셋을 요구하는지 파악할 수 있습니다. 이를 통해 HR 부서는 각 직무의 특성에 맞는 최적의 후보자를 쉽게 추천할 수 있습니다.

K-means 클러스터링

K-means 클러스터링은 가장 널리 사용되는 클러스터링 알고리즘 중 하나로, 주어진 데이터 집합을 미리 정해진 수의 클러스터(그룹)로 나누는 방법입니다. K-means는 주어진 데이터 포인트들을 K개의 군집으로 분할하는 알고리즘으로, 각 군집의 중심(centroid)을 계산하고, 데이터를 해당 군집에 할당하는 방식으로 작동합니다. 이 과정은 군집 내의 데이터 포인트들이 서로 유사하도록 최적화됩니다.

K-means 알고리즘

K-means 클러스터링 알고리즘의 주요 과정은 다음과 같습니다:

K개의 군집 중심 초기화: K개의 클러스터를 만들기 위해 군집 중심을 임의로 설정합니다.

각 데이터 포인트 할당: 각 데이터 포인트를 가장 가까운 군집 중심에 할당합니다. 이때, 보통 유클리드 거리를 사용하여 가장 가까운 중심을 찾습니다.

군집 중심 업데이트: 각 클러스터의 새로운 중심은 해당 클러스터에 할당된 모든 데이터 포인트들의 평균값으로 설정됩니다.

수렴 검사: 군집 중심이 더 이상 변하지 않거나, 변동이 매우 적으면 알고리즘을 종료합니다.

K-means 클러스터링의 목표는 각 클러스터 내의 데이터 포인트들이 서로 가까워지도록 하고, 군집 간의 데이터 포인트들은 멀어지도록 하는 것입니다. 이 목표를 수식으로 나타내면 다음과 같습니다:

J = \sum^K_{i=1} \sum_{x_j \in C_i} || x_j - \mu_i ||^2

여기서:

•

JJJ 는 전체 비용 함수(군집 내 거리 합)

•

KKK 는 클러스터의 개수

•

CiC_iCi​ 는 클러스터 iii 에 속한 데이터 포인트들

•

xjx_jxj​ 는 클러스터 CiC_iCi​ 에 속한 데이터 포인트

•

μi\mu_iμi​ 는 클러스터 iii 의 중심(centroid)

•

∣∣xj−μi∣∣2|| x_j - \mu_i ||^2∣∣xj​−μi​∣∣2 는 데이터 포인트와 해당 클러스터 중심 간의 거리

K-means는 이 비용 함수를 최소화하는 클러스터 중심을 찾습니다. 즉, 각 클러스터의 중심이 해당 클러스터에 속한 데이터 포인트들과의 거리 합이 최소가 되도록 조정됩니다.

코드 예시

이제 클러스터링을 활용한 직무 간 스킬셋 분석을 실제로 어떻게 적용할 수 있는지에 대해 살펴보겠습니다. 이 예시에서는 각 직무에 필요한 기술들을 이진 벡터로 나타낸 후, K-means 클러스터링을 사용하여 직무 간 유사성을 파악하고, 유사한 기술을 요구하는 직무들을 클러스터링합니다.

1단계: 데이터 준비

먼저, 직무별 요구되는 기술을 바탕으로 데이터셋을 준비합니다. 각 직무에 필요한 주요 기술은 이진 벡터로 표시되며, 직무 간의 기술적 요구 사항을 비교할 수 있도록 데이터를 설정합니다.

import pandas as pd

# 직무와 해당 직무에 필요한 기술 세트 (이진 벡터 형태)
data = {
    '직무': ['데이터 분석', '소프트웨어 개발', '디지털 마케팅', '기계 공학', 'AI 연구'],
    'Python': [1, 1, 0, 0, 1],
    'SQL': [1, 1, 0, 0, 0],
    'R': [1, 0, 0, 0, 1],
    'Java': [0, 1, 0, 1, 0],
    'HTML': [0, 0, 1, 0, 0],
    'TensorFlow': [0, 0, 0, 0, 1]
}

df = pd.DataFrame(data)

# 직무를 제외한 기술 항목만 선택
X = df.drop('직무', axis=1)
Python
복사

위와 같이 각 직무와 요구되는 기술들을 이진 벡터로 나열한 데이터프레임을 생성했습니다. 예를 들어, '데이터 분석' 직무는 Python, SQL, R을 필요로 하고, '디지털 마케팅' 직무는 HTML 기술을 요구합니다.

2단계: 데이터 시각화

결과를 얻기 전, 데이터 시각화를 통하여 데이터의 분포를 직관적으로 확인할 수 있습니다. 히트맵은 가장 대표적인 방법으로 직무와 스킬 간의 관계를 시각적으로 나타내어 데이터의 분포를 이해하고 분석할 수 있도록 돕습니다. 이를 통해 직무 간 기술 요구사항의 유사점과 차이점을 한눈에 파악할 수 있습니다.

import matplotlib.pyplot as plt
import seaborn as sns

# 'Job' 열 제외 후 히트맵 데이터 준비
X = df.drop('Job', axis=1)

# Heatmap 생성
plt.figure(figsize=(8, 6))
sns.heatmap(X.T, annot=True, cmap="Blues", cbar=True, xticklabels=df['Job'], yticklabels=X.columns)
plt.title('Skillset Heatmap by Job')
plt.xlabel('Job Role')
plt.ylabel('Skillset')
plt.show()
Python
복사

생성된 히트맵은 다음과 같이 나타납니다:

•

X축: 직무 (예: 데이터 분석, 소프트웨어 개발)

•

Y축: 요구 스킬 (예: Python, SQL)

•

셀 색상: 각 기술이 직무에서 얼마나 요구되는지를 나타냄 (1: 요구, 0: 비요구).

데이터 분석와 AI 연구는 모두 Python과 R을 필요로 하는 반면, 디지털 마케팅는 HTML만을 요구합니다. 이러한 정보를 시각적으로 한눈에 확인할 수 있습니다.

3단계: K-means 클러스터링 적용

이제 K-means 클러스터링을 사용하여 직무 간 유사성을 분석하고, 유사한 기술을 요구하는 직무들을 그룹화합니다. K-means는 주어진 데이터를 클러스터로 나누는 방법 중 하나로, 클러스터의 개수를 미리 지정하고, 각 직무를 해당하는 클러스터로 분류합니다.

from sklearn.cluster import KMeans

# K-means 클러스터링 (2개의 클러스터로 분할)
kmeans = KMeans(n_clusters=2, random_state=42)
df['클러스터'] = kmeans.fit_predict(X)

# 결과 확인
print(df[['직무', '클러스터']])
Python
복사

4단계: 결과 분석

K-means 클러스터링을 적용한 후, 각 직무가 속한 클러스터를 확인할 수 있습니다. 클러스터링 결과는 직무들이 요구하는 기술 세트에 따라 자동으로 분류되며, 이를 통해 비슷한 기술을 요구하는 직무들이 같은 클러스터에 속하게 됩니다.

+----------------+------------+
| 직무           |   클러스터  |
+----------------+------------+
| 데이터 분석     |          0 |
| 소프트웨어 개발 |          1 |
| 디지털 마케팅   |          1 |
| 기계 공학       |          1 |
| AI 연구        |          0 |
+----------------+------------+
Python
복사

위의 예시 결과에서는 데이터 분석과 AI 연구가 같은 클러스터에 속하고, 소프트웨어 개발, 디지털 마케팅, 기계 공학은 다른 클러스터로 나뉩니다. 이는 해당 직무들이 요구하는 기술의 유사성에 기반한 결과입니다. 예를 들어, '데이터 분석'과 'AI 연구'는 모두 Python과 R을 사용하는 직무이기 때문에 같은 클러스터에 속하게 됩니다.

마치며

클러스터링을 통해 직무 간의 스킬셋 차이를 분석하면, 각 직무에 필요한 기술들이 어떻게 분포하는지를 명확히 이해할 수 있습니다. 이를 통해 채용 과정에서 유사한 직무를 그룹화하거나, 특정 직무에 적합한 후보자를 찾는 데 도움을 줄 수 있습니다. 또한, 클러스터링을 활용하여 직무별로 요구되는 기술 세트를 정리하고, 직무 간 차이를 분석함으로써 보다 정교한 채용 전략을 수립할 수 있습니다.

탤런트시커는 이와 같은 스킬셋 분석을 다른 AI, 머신러닝 기술과 결합하여 최적의 후보자를 추천합니다. 탤런트시커를 통해 직무별로 필요한 스킬셋을 분석하고, 최적의 인재를 찾아보세요.

Learn more about TalentSeeker