116개 분절 레이블 전체 목록
116개 분절 레이블 전체 목록 — 번호·이름·분류·예시
이 문서는 바른의 분절(Segmenter) 모델이 구분하는 116개 분절 레이블 전체를 한 표로 정리한 참고용 카탈로그입니다.
분절 레이블이 무엇이고 왜 모델 가중치에 학습되어 있는지 등 원리는
116개 분절 규칙이 만드는 한국어 형태론에서 설명하므로, 여기서는 전체 목록에 집중합니다.
116개는 어떻게 세나요
아래 표의 번호는 바른 내부 분절 모델의 레이블 번호(000~114)이며, 여기에 공백 처리 레이블 SP(번호 119)를
더해 모두 116개입니다. SP도 하나의 공백 문자를 다루는 엄연한 분절 규칙이므로 포함해서 셉니다.
문장 경계 표시용 특수 토큰(BOS/EOS/SEP)은 분절 레이블이 아니므로 이 수에 넣지 않습니다.
번호·이름은 모델 버전이 올라가며 일부 달라질 수 있습니다(이 표는 현재 배포 모델 기준).
분류 한눈에
| 분류 | 다루는 현상 | 대표 예 |
|---|---|---|
| 기본 | 음절·체언·용언·관형·부사·감탄·기호의 그대로/분절 | 사람 → 사람/NNG |
| 활용 | 용언의 규칙·불규칙 활용(ㅂ/ㅅ/ㅎ/ㄷ/ㄹ/러/우/르/여 불규칙 등) | 구워 ← 굽 + 어 |
| 축약 | 두 음절이 한 음절로 합쳐짐 | 봤어 ← 보 + 았 + 어 |
| 탈락 | 어간·어미의 일부가 사라짐 | 써서 ← 쓰 + 어서 |
| 생략 | 조사·지정사(이)가 표면에서 빠짐 |
킵니다 ← 키 + 이 + ㅂ니다 |
| 지정사 | 서술격조사 이(VCP)의 활용·복원 |
수비다 ← 수비 + 이 + 다 |
| 기타 | 어미·조사 분절 등 그 밖의 처리 | — |
| 공백 | 어절 사이 공백(띄어쓰기) 처리 | SP |
오류 탐지 레이블
아래 표에서 오류탐지 ✅ 로 표시한 레이블은 이름에 _오류가 들어간, 분절 단계에서 형태적 오류를 잡아내는 레이블입니다.
바른 발표 자료에서는 여기에 ㅂ불규칙 특수 활용형(활용_ㅂ불규칙_특수_*)처럼 오류 판별에 함께 쓰이는 레이블을 더해
오류 탐지 레이블을 14개로 소개합니다. 이 14종의 의미와 예시는
맞춤법 검사 — 분절 단계가 잡는 형태 오류에 정리되어 있습니다.
이 레이블들이 형태소 분석기와 맞춤법 검사기를 잇는 다리 역할을 합니다.
전체 레이블 표
| # | 레이블 이름 | 분류 | 오류탐지 | 예시 |
|---|---|---|---|---|
| 000 | 체언_그대로 |
기본 | 사람 → 사람/NNG |
|
| 001 | 체언_분절 |
기본 | 학교종 → 학교+종 |
|
| 002 | 용언_그대로 |
기본 | 가다의 가 → 가/VV |
|
| 003 | 용언_분절 |
기본 | ||
| 004 | 어미_분절 |
기타 | ||
| 005 | 어미_그대로 |
기타 | ||
| 006 | 조사_분절 |
기타 | ||
| 007 | 조사_그대로 |
기타 | ||
| 008 | 관형_그대로 |
기본 | ||
| 009 | 관형_분절 |
기본 | ||
| 010 | 부사_그대로 |
기본 | ||
| 011 | 부사_분절 |
기본 | ||
| 012 | 감탄_그대로 |
기본 | ||
| 013 | 감탄_분절 |
기본 | ||
| 014 | 기호_분절 |
기본 | ||
| 015 | 기호_그대로 |
기본 | ||
| 016 | 활용_ㅂ불규칙_어간_아어_앞 |
활용 | 구워 ← 굽+어 (ㅂ→우) |
|
| 017 | 활용_ㅂ불규칙_어간_으_앞 |
활용 | ||
| 018 | 활용_ㅂ불규칙_어미_아어_1 |
활용 | ||
| 019 | 활용_ㅂ불규칙_어미_ㄴㄹㅁㅂ_1 |
활용 | ||
| 020 | 활용_ㅂ불규칙_어미_으_1 |
활용 | ||
| 021 | 활용_ㅂ불규칙_특수_ㄴㄹ_우탈락_0 |
활용 | ||
| 022 | 활용_ㅂ불규칙_특수_아어_축약_0 |
활용 | ||
| 023 | 활용_ㅂ불규칙_특수_고은_고아라 |
활용 | ||
| 024 | 활용_ㅅ불규칙_어간 |
활용 | 지어 ← 짓+어 (ㅅ 탈락) |
|
| 025 | 활용_ㅅ불규칙_어_축약 |
활용 | ||
| 026 | 활용_ㅅ불규칙_어간_ㅅ첨가_오류 |
활용 | ✅ | |
| 027 | 활용_ㅎ불규칙_어간 |
활용 | 파래 ← 파랗+아 |
|
| 028 | 활용_ㅎ불규칙_어미_ㄴㄹㅁ_축약 |
활용 | ||
| 029 | 활용_ㅎ불규칙_어미_아어_축약 |
활용 | ||
| 030 | 활용_ㄷ불규칙_어간 |
활용 | 들어 ← 듣+어 (ㄷ→ㄹ) |
|
| 031 | 활용_ㄹ불규칙_으_첨가_오류 |
활용 | ✅ | |
| 032 | 활용_용언_으_첨가_오류 |
활용 | ✅ | |
| 033 | 활용_러불규칙_어미_어_1 |
활용 | ||
| 034 | 활용_러블규칙_어간_그대로 |
활용 | ||
| 035 | 활용_러불규칙_어미_어_오류 |
활용 | ✅ | |
| 036 | 활용_우불규칙_어미_어 |
활용 | 퍼 ← 푸+어 (우 탈락) |
|
| 037 | 활용_르불규칙_어간 |
활용 | 흘러 ← 흐르+어 |
|
| 038 | 활용_르불규칙_어미_어_0 |
활용 | ||
| 039 | 활용_르불규칙_어미_아어았었_오류 |
활용 | ✅ | |
| 040 | 활용_르불규칙_어간_오류 |
활용 | ✅ | |
| 041 | 활용_르불규칙_어간_ㄹ첨가_오류 |
활용 | ✅ | |
| 042 | 활용_여불규칙_ㅐ_0 |
활용 | ||
| 043 | 활용_여불규칙_해_1 |
활용 | 해 ← 하+여 |
|
| 044 | 활용_여불규칙_아_1 |
활용 | ||
| 045 | 활용_여불규칙_어미_어_0 |
활용 | ||
| 046 | 활용_ㅐ불규칙_0 |
활용 | ||
| 047 | 탈락_ㄹ탈락_어간 |
탈락 | 노니 ← 놀+니 (ㄹ 탈락) |
|
| 048 | 탈락_ㄹ탈락_어미_ㄴ |
탈락 | ||
| 049 | 탈락_ㄹ탈락_어미_ㄹ |
탈락 | ||
| 050 | 탈락_ㄹ탈락_어미_ㅂ_0 |
탈락 | ||
| 051 | 탈락_ㄹ축약_어미_ㅁ |
탈락 | ||
| 052 | 탈락_으탈락 |
탈락 | 써서 ← 쓰+어서 (으 탈락) |
|
| 053 | 탈락_ㅎ탈락 |
탈락 | ||
| 054 | 탈락_하탈락_지 |
탈락 | 편치 ← 편하+지 |
|
| 055 | 축약_어간_ㄴㄹㅂ |
축약 | ||
| 056 | 축약_선어말어미_ㄴㄹㅁㅂ |
축약 | ||
| 057 | 축약_어미_보조사_ㄴㄹ_1 |
축약 | ||
| 058 | 축약_조사_보조사_ㄴㄹ_1 |
축약 | ||
| 059 | 축약_명사류_보조사_ㄴㄹ_1 |
축약 | ||
| 060 | 축약_어미_보조사_ㄴㄹ_0 |
축약 | ||
| 061 | 축약_조사_보조사_ㄴㄹ_0 |
축약 | ||
| 062 | 축약_기타_보조사_ㄴㄹ_0 |
축약 | ||
| 063 | 축약_어간_ㅁ |
축약 | ||
| 064 | 축약_중성중복_아어 |
축약 | 가 ← 가+아 |
|
| 065 | 축약_중성중복_았었 |
축약 | ||
| 066 | 축약_이중모음 |
축약 | 봐 ← 보+아 |
|
| 067 | 축약_ㅐㅔ_어 |
축약 | 개 ← 개+어 |
|
| 068 | 축약_의존명사_이_조사 |
축약 | ||
| 069 | 축약_의존명사_이_지정사 |
지정사 | ||
| 070 | 축약_대명사_의 |
축약 | ||
| 071 | 축약_대명사_에 |
축약 | ||
| 072 | 축약_있_0 |
축약 | ||
| 073 | 축약_방언_었 |
축약 | 돌아가싯다=돌아가+시+ㅅ+다, 사삣다=사+어+삐+ㅅ+다 |
|
| 074 | 축약_외_어었_왜왰_오류 |
축약 | ✅ | 왰(오류) ↔ 외+었 |
| 075 | 축약_세셔_선어말_시어 |
축약 | ||
| 076 | 축약_쇼슈_선어말_시오 |
축약 | ||
| 077 | 축약_죠_0 |
축약 | ||
| 078 | 축약_ㅎ_어근 |
축약 | ||
| 079 | 축약_ㅎ_어미_ㄱㅈㄷ_1 |
축약 | ||
| 080 | 축약_잖_지않 |
축약 | 잖 ← 지+않 |
|
| 081 | 축약_인용_하_ㄹㄴ |
축약 | ||
| 082 | 축약_인용_대래재_도서 |
축약 | ||
| 083 | 축약_인용_대래재_하잖_앞 |
축약 | ||
| 084 | 축약_인용_이_대래재_하잖_1 |
축약 | ||
| 085 | 축약_인용_하시_어_1 |
축약 | ||
| 086 | 축약_인용_하시_었_1 |
축약 | ||
| 087 | 축약_잖 |
축약 | ||
| 088 | 축약_인용_하_얄 |
축약 | ||
| 089 | 축약_이_낸들 |
축약 | ||
| 090 | 축약_체언_이에_1 |
축약 | ||
| 091 | 축약_의존명사_이_ㄴㄹㅂ |
축약 | ||
| 092 | 축약_부정_니에_0 |
축약 | ||
| 093 | 생략_하_1 |
생략 | ||
| 094 | 생략_하_어미축약_1 |
생략 | ||
| 095 | 생략_이_모음 |
생략 | ||
| 096 | 생략_이_자음 |
생략 | ||
| 097 | 생략_이_한글아님 |
생략 | ||
| 098 | 생략_이_인용_축약_이라하_ㄹ_1 |
생략 | ||
| 099 | 생략_이_인용_축약_이라하_아_1 |
생략 | ||
| 100 | 생략_이_축약_시어_1 |
생략 | ||
| 101 | 생략_이_시기_ㄴㄹㅂ_1 |
생략 | ||
| 102 | 생략_이_잖_이지않_1 |
생략 | ||
| 103 | 생략_이_인용 |
생략 | ||
| 104 | 생략_모음체언_이_ㄴㄹㅂ_1 |
생략 | 고리킵니까=고리키/NNP+이/VCP+ㅂ니까 |
|
| 105 | 생략_모음체언_이_ㄴㄹㅂ_0 |
생략 | 개인 킵니다=키/NNG+이/VCP+ㅂ니다/EF |
|
| 106 | 생략_모음조사_이_ㄴㄹㅂ |
생략 | ||
| 107 | 생략_명사말음_이_인일입_0 |
생략 | ||
| 108 | 활용_지정사_이_1 |
지정사 | 수비다=수비/NNG+이/VCP+다/EF (서술격조사) |
|
| 109 | 활용_지정사_어미_었_오류_1 |
지정사 | ✅ | 서술격조사 이+었 결합 오류 탐지 |
| 110 | 활용_부정지정사_어미_야_0 |
지정사 | ||
| 111 | 활용_지정사_어미_요_1 |
지정사 | 거예요=거+이+에요 |
|
| 112 | 활용_어미_분절_아어_오류 |
활용 | ✅ | 어간 모음과 어미 아/어 결합 오류 탐지 |
| 113 | 활용_이_모음순행동화_요여_오류 |
활용 | ✅ | 되여(오류) ↔ 되어 |
| 114 | 기타_마_말아 |
기타 | 마 ← 말+아 |
|
| 119 | SP |
공백 | 어절 사이 공백(띄어쓰기) 처리 |
레이블 이름 읽는 법
레이블 이름은 현상_세부조건_변형을 밑줄(_)로 이어 붙인 형태입니다.
예를 들어 생략_모음체언_이_ㄴㄹㅂ_0은 "모음으로 끝나는 체언 뒤에서 지정사 이가 생략되고
뒤따르는 자음 ㄴ/ㄹ/ㅂ과 얽히는 경우(변형 0)"를 뜻합니다. 이름만 읽어도 어떤 한국어 현상을 다루는지 짐작할 수 있습니다.
예시 칸이 비어 있는 레이블도 이름의 구성 요소로 의미를 유추할 수 있습니다.
자주 묻는 질문
Q. 바른의 분절 레이블은 모두 몇 개인가요?
내부 분절 모델 기준 000~114의 115개 레이블에 공백 처리 레이블 SP를 더해 모두 116개입니다.
이 가운데 이름에 _오류가 붙은 레이블과 ㅂ불규칙 특수 활용형을 합쳐, 발표 자료에서는 오류 탐지 레이블을 14개로 소개합니다.
Q. 116개 레이블 목록을 어디서 볼 수 있나요?
이 문서의 전체 표에서 번호·이름·분류·예시를 함께 볼 수 있습니다.
레이블은 별도의 규칙 파일이 아니라 학습된 분절 모델(seg-model.onnx)의 가중치 안에 인코딩되어 있으며,
표의 번호는 모델 버전에 따라 일부 달라질 수 있습니다.
Q. 오류탐지로 표시된 레이블은 무엇인가요?
분절 단계에서 형태적 오류(불규칙 활용 오류, 축약·모음 순행동화 오류 등)를 식별하는 레이블입니다. 바른은 형태소를 복원하는 동시에 "이 어절은 형태가 틀렸다"는 신호를 내며, 이 신호가 맞춤법 검사기로 이어집니다.
Q. 예시가 비어 있는 레이블은 무슨 뜻인가요?
예시 칸은 신뢰할 수 있는 대표 사례가 확인된 레이블에만 채웠습니다.
비어 있어도 레이블 이름(현상_세부조건_변형)으로 어떤 한국어 형태 변화를 다루는지 알 수 있습니다.
도움이 되었나요?