Original Article
Occupation classification model based on DistilKoBERT: using the 5th and 6th Korean Working Condition Surveys
Tae-Yeon Kim, Seong-Uk Baek, Myeong-Hun Lim, Byungyoon Yun, Domyung Paek, Kyung Ehi Zoh, Kanwoo Youn, Yun Keun Lee, Yangho Kim, Jungwon Kim, Eunsuk Choi, Mo-Yeol Kang, YoonHo Cho, Kyung-Eun Lee, Juho Sim, Juyeon Oh, Heejoo Park, Jian Lee, Jong-Uk Won, Yu-Min Lee, Jin-Ha Yoon
Ann Occup Environ Med 2024;36:e19.   Published online August 6, 2024
AbstractAbstract AbstractAbstract in Korean PDFSupplementary MaterialPubReaderePub

Accurate occupation classification is essential in various fields, including policy development and epidemiological studies. This study aims to develop an occupation classification model based on DistilKoBERT.


This study used data from the 5th and 6th Korean Working Conditions Surveys conducted in 2017 and 2020, respectively. A total of 99,665 survey participants, who were nationally representative of Korean workers, were included. We used natural language responses regarding their job responsibilities and occupational codes based on the Korean Standard Classification of Occupations (7th version, 3-digit codes). The dataset was randomly split into training and test datasets in a ratio of 7:3. The occupation classification model based on DistilKoBERT was fine-tuned using the training dataset, and the model was evaluated using the test dataset. The accuracy, precision, recall, and F1 score were calculated as evaluation metrics.


The final model, which classified 28,996 survey participants in the test dataset into 142 occupational codes, exhibited an accuracy of 84.44%. For the evaluation metrics, the precision, recall, and F1 score of the model, calculated by weighting based on the sample size, were 0.83, 0.84, and 0.83, respectively. The model demonstrated high precision in the classification of service and sales workers yet exhibited low precision in the classification of managers. In addition, it displayed high precision in classifying occupations prominently represented in the training dataset.


This study developed an occupation classification system based on DistilKoBERT, which demonstrated reasonable performance. Despite further efforts to enhance the classification accuracy, this automated occupation classification model holds promise for advancing epidemiological studies in the fields of occupational safety and health.

DistilKOBERT를 기반으로 한 직업 분류 모델 개발: 제5차, 6차 한국근로실태조사를 이용하여
정확한 직업분류는 정책 개발 및 역학 연구를 포함한 다양한 분야에서 중요하다. 본 연구는 자연어처리모델인 DistilKoBERT를 기반으로 한 직업 분류 모델을 개발하는 것을 목표로 한다.
본 연구는 2017년과 2020년에 실시된 제5차와 제6차 근로환경조사 (KWCS)의 데이터를 활용하였다. 대한민국 근로자를 국가적으로 대표하는 총 99,665명의 참가자가 포함되었고, 직무 내용과 관련된 자연어 응답과 그에 맞는 대한민국 표준직업 분류코드(7차 개정, 3자리 코드)를 연구에 사용하였다. 데이터셋은 7:3의 비율로 훈련 및 테스트 데이터셋으로 무작위로 분할되었고, 사전 학습된 DistilKoBERT을 훈련 데이터셋을 통해 파인튜닝하여 모델을 학습시키고, 테스트 데이터셋을 사용하여 그 기능을 평가하였다. 정확도, 정밀도, 재현율 및 F1 점수가 평가 지표로 계산되었다.
테스트 데이터셋의 28,996명의 참가자를 142개의 직업 코드로 분류한 최종 모델은 84.44%의 정확도를 보였다. 샘플 크기를 기준으로 가중치를 적용하여 계산한 모델의 정밀도, 재현율 및 F1 점수는 각각 0.83, 0.84 및 0.83 이었다. 최종 모델은 서비스, 판매 종사자 그룹에서 높은 정밀도를 보여주었지만 관리자 그룹에서는 낮은 정밀도를 보였다. 또한 훈련 데이터셋에서 표본의 수가 많았던 직업에서 대체로 높은 정밀도를 보였다.
본 연구는 DistilKoBERT를 기반으로 합리적인 성능을 보이는 직업 분류 모델을 개발하였다. 분류의 정확성을 향상시키기 위한 추가적인 노력이 필요하지만, 자동화된 직업 분류 모델은 직업 안전 및 보건 분야의 유행병 연구를 발전시키는 데 기여할 것이라 기대된다.
Original Article
The effect of job insecurity, employment type and monthly income on depressive symptom: analysis of Korean Longitudinal Study on Aging data
Myeong-Hun Lim, Jong-Uk Won, Won-Tae Lee, Min-Seok Kim, Seong-Uk Baek, Jin-Ha Yoon
Ann Occup Environ Med 2022;34:e24.   Published online September 13, 2022
AbstractAbstract AbstractAbstract in Korean PDFSupplementary MaterialPubReaderePub

In modern society, depression is serious issue that causes socioeconomic and family burden. To decrease the incidence of depression, risk factors should be identified and managed. Among many risk factors for depression, this study examined socioeconomic risk factors for depression.


We utilized first (2006), second (2008), and third (2010)-wave data from the Korean Longitudinal Study of Aging (KLoSA). Depressive symptom was measured with the 10-item Center for Epidemiological Studies Depression Scale, Short Form (CES-D-10) in the survey in 2008 and 2010. Three risk factors including job security, employment type and monthly income were measured in the survey in 2006. The association between risk factors and depressive symptom was analyzed by Cox proportional-hazard model.


We analyzed data from 1,105 workers and hazard ratios (HRs) for 3 risk factors were significant entirely. In addition, regular worker with high income group is the most vulnerable group of poor job insecurity on depression among male workers (HR: 1.73; 95% confidence interval [CI]: 1.07–2.81). Finally, HRs for 7 groups who had at least 1 risk factor had higher HRs compared to groups who had no risk factors after stratifying 3 risk factors. In the analysis, significantly vulnerable groups were total 5 groups and the group who had highest HR was temporary/daily workers with poor job security (HR: 2.51; 95% CI: 1.36–4.64). The results concerning women, regardless of job type, were non-significant.


This study presented one or more risk factors among poor job security, low income, temporary/daily employment type increase hazard for depressive symptom in 2 or 4 years after the exposure. These results inform policy to screen for and protect against the risk of depression in vulnerable groups.

직업 안정성, 고용 형태, 월 소득이 우울 증상에 미치는 영향 : 고령화연구 패널조사 분석을 중심으로
우울증은 전세계적으로 사회경제적 부담을 유발하는 심각한 문제로 받아들여지고 있으며 우울증의 위험요인으로는 유전적, 기질적, 환경적, 사회경제적 요인들이 알려져 있으나, 최근 코로나바이러스 감염증-19로 인한 월 소득의 감소, 직업 불안정성을 포함한 사회경제적 요인이 중요하게 다루어지고 있다. 우울증을 스크리닝하기 위한 고위험군을 선정하기 위하여 본 연구에서는 전향적 코호트 내에서 직업 안정성, 고용 형태, 월 소득을 기준으로 8가지 그룹을 나누어 각 그룹의 우울 증상 발생 위험도를 분석하고자 한다.
본 연구는 전향적 코호트 연구인 제 1, 2, 3차 고령화연구패널조사 결과를 분석하였다. 2, 3차 조사에서 적어도 한 번 이상 CES-D-10 점수가 4점 이상인 경우, 우울 증상이 발생하였다고 판단하였으며, 1차 조사에서 응답한 직업 안정성 여부, 고용 형태, 월 소득의 영향을 분석하였다. 분석에는 Cox proportional-hazard regression model이 사용되었으며, 나이, 학력, 월 근무시간, 흡연 및 음주 과거력, 직무 스트레스가 보정 변수로 사용되었다.
먼저, 남성 근로자에서 직업 불안정성, 임시직/일용직 근로자, 낮은 월 소득을 위험요인으로 갖는 경우, 그렇지 않은 경우보다 우울 증상의 위험도가 유의하게 증가하였다. 두 번째로, 남성 근로자에서 월 소득, 고용 형태에 따라 4개의 그룹을 나누어 각 그룹에서 직업 불안정성의 영향을 분석하였으며, 월 소득이 높은 상용직 근로자 그룹에서만 유의한 결과를 보였다. 세 번째로, 직업 안정성, 월 소득, 고용 형태를 기준으로 8개의 그룹을 나누어 각각의 우울 증상의 위험도를 분석하였다. 남성과 여성 근로자에 대하여 각각 분석하였으며, 상용직, 높은 월 소득, 높은 직업 안정성을 가진 근로자를 기준 그룹으로 선정한 후, 위험도 분석을 진행하였다. 세 가지 위험 요소 중, 낮은 직업 안정성만을 위험 요소로 갖는 그룹 (HR [95% CI]: 1.66 [1.05-2.61]), 낮은 직업 안정성과 낮은 월 소득을 갖는 그룹 (HR [95% CI]: 1.76 [1.19-2.61]), 낮은 직업 안정성과 임시직/일용직 근로자를 갖는 그룹 (HR [95% CI]: 2.51 [1.36-4.64]), 낮은 월 소득과 임시직/일용직 근로자를 갖는 그룹(HR [95% CI]: 1.81 [1.02-3.22]) 세 가지 위험 요소를 모두 갖는 그룹 (HR [95% CI]: 2.27 [1.57-3.27])에서 우울 증상의 위험도 증가가 유의하게 나타났다. 세 가지 분석 모두에서 여성 근로자의 경우, 유의미한 결과를 보이지 않았다.
본 연구에서는 직업 불안정성, 임시직/일용직 고용 형태, 낮은 임금에 노출된 경우, 노출 후 2년과 4년 중 1회 이상 우울 증상 발생 위험도가 유의하게 증가한다는 결과를 도출하였다. 본 연구에서 우울 증상에 대한 위험요인이 많은 근로자일수록 우울 증상에 대한 위험도가 큰 것으로 분석되었다. 예외적으로, 임시직/일용직 근로자의 경우, 높은 월 소득의 근로자가 낮은 근로자보다 위험도가 높았다. 마지막으로 월 소득과 고용 형태를 기준으로 그룹을 나누었을 때, 직업 안정성에 의한 위험도 증가가 가장 큰 그룹은 상용직 근로자 중 월 소득이 높은 경우였다. 위 결과를 바탕으로 1개 이상의 위험요인을 갖는 고위험군을 대상으로 우울증에 대한 스크리닝 검사를 2년 간격으로 실시하는 것과 모든 근로자를 대상으로 직업 안정성에 대한 자가 조사가 필요하다는 것을 제안하였다.


