콘텐츠로 이동

116개 분절 레이블 전체 목록

116개 분절 레이블 전체 목록 — 번호·이름·분류·예시

이 문서는 바른의 분절(Segmenter) 모델이 구분하는 116개 분절 레이블 전체를 한 표로 정리한 참고용 카탈로그입니다. 분절 레이블이 무엇이고 왜 모델 가중치에 학습되어 있는지 등 원리116개 분절 규칙이 만드는 한국어 형태론에서 설명하므로, 여기서는 전체 목록에 집중합니다.

116개는 어떻게 세나요

아래 표의 번호는 바른 내부 분절 모델의 레이블 번호(000~114)이며, 여기에 공백 처리 레이블 SP(번호 119)를 더해 모두 116개입니다. SP도 하나의 공백 문자를 다루는 엄연한 분절 규칙이므로 포함해서 셉니다. 문장 경계 표시용 특수 토큰(BOS/EOS/SEP)은 분절 레이블이 아니므로 이 수에 넣지 않습니다. 번호·이름은 모델 버전이 올라가며 일부 달라질 수 있습니다(이 표는 현재 배포 모델 기준).

분류 한눈에

분류 다루는 현상 대표 예
기본 음절·체언·용언·관형·부사·감탄·기호의 그대로/분절 사람사람/NNG
활용 용언의 규칙·불규칙 활용(ㅂ/ㅅ/ㅎ/ㄷ/ㄹ/러/우/르/여 불규칙 등) 구워 ← 굽 + 어
축약 두 음절이 한 음절로 합쳐짐 봤어 ← 보 + 았 + 어
탈락 어간·어미의 일부가 사라짐 써서 ← 쓰 + 어서
생략 조사·지정사()가 표면에서 빠짐 킵니다 ← 키 + 이 + ㅂ니다
지정사 서술격조사 (VCP)의 활용·복원 수비다 ← 수비 + 이 + 다
기타 어미·조사 분절 등 그 밖의 처리
공백 어절 사이 공백(띄어쓰기) 처리 SP

오류 탐지 레이블

아래 표에서 오류탐지 ✅ 로 표시한 레이블은 이름에 _오류가 들어간, 분절 단계에서 형태적 오류를 잡아내는 레이블입니다. 바른 발표 자료에서는 여기에 ㅂ불규칙 특수 활용형(활용_ㅂ불규칙_특수_*)처럼 오류 판별에 함께 쓰이는 레이블을 더해 오류 탐지 레이블을 14개로 소개합니다. 이 14종의 의미와 예시는 맞춤법 검사 — 분절 단계가 잡는 형태 오류에 정리되어 있습니다. 이 레이블들이 형태소 분석기와 맞춤법 검사기를 잇는 다리 역할을 합니다.

전체 레이블 표

# 레이블 이름 분류 오류탐지 예시
000 체언_그대로 기본 사람사람/NNG
001 체언_분절 기본 학교종학교+
002 용언_그대로 기본 가다가/VV
003 용언_분절 기본
004 어미_분절 기타
005 어미_그대로 기타
006 조사_분절 기타
007 조사_그대로 기타
008 관형_그대로 기본
009 관형_분절 기본
010 부사_그대로 기본
011 부사_분절 기본
012 감탄_그대로 기본
013 감탄_분절 기본
014 기호_분절 기본
015 기호_그대로 기본
016 활용_ㅂ불규칙_어간_아어_앞 활용 구워 ← 굽+어 (ㅂ→우)
017 활용_ㅂ불규칙_어간_으_앞 활용
018 활용_ㅂ불규칙_어미_아어_1 활용
019 활용_ㅂ불규칙_어미_ㄴㄹㅁㅂ_1 활용
020 활용_ㅂ불규칙_어미_으_1 활용
021 활용_ㅂ불규칙_특수_ㄴㄹ_우탈락_0 활용
022 활용_ㅂ불규칙_특수_아어_축약_0 활용
023 활용_ㅂ불규칙_특수_고은_고아라 활용
024 활용_ㅅ불규칙_어간 활용 지어 ← 짓+어 (ㅅ 탈락)
025 활용_ㅅ불규칙_어_축약 활용
026 활용_ㅅ불규칙_어간_ㅅ첨가_오류 활용
027 활용_ㅎ불규칙_어간 활용 파래 ← 파랗+아
028 활용_ㅎ불규칙_어미_ㄴㄹㅁ_축약 활용
029 활용_ㅎ불규칙_어미_아어_축약 활용
030 활용_ㄷ불규칙_어간 활용 들어 ← 듣+어 (ㄷ→ㄹ)
031 활용_ㄹ불규칙_으_첨가_오류 활용
032 활용_용언_으_첨가_오류 활용
033 활용_러불규칙_어미_어_1 활용
034 활용_러블규칙_어간_그대로 활용
035 활용_러불규칙_어미_어_오류 활용
036 활용_우불규칙_어미_어 활용 ← 푸+어 (우 탈락)
037 활용_르불규칙_어간 활용 흘러 ← 흐르+어
038 활용_르불규칙_어미_어_0 활용
039 활용_르불규칙_어미_아어았었_오류 활용
040 활용_르불규칙_어간_오류 활용
041 활용_르불규칙_어간_ㄹ첨가_오류 활용
042 활용_여불규칙_ㅐ_0 활용
043 활용_여불규칙_해_1 활용 ← 하+여
044 활용_여불규칙_아_1 활용
045 활용_여불규칙_어미_어_0 활용
046 활용_ㅐ불규칙_0 활용
047 탈락_ㄹ탈락_어간 탈락 노니 ← 놀+니 (ㄹ 탈락)
048 탈락_ㄹ탈락_어미_ㄴ 탈락
049 탈락_ㄹ탈락_어미_ㄹ 탈락
050 탈락_ㄹ탈락_어미_ㅂ_0 탈락
051 탈락_ㄹ축약_어미_ㅁ 탈락
052 탈락_으탈락 탈락 써서 ← 쓰+어서 (으 탈락)
053 탈락_ㅎ탈락 탈락
054 탈락_하탈락_지 탈락 편치 ← 편하+지
055 축약_어간_ㄴㄹㅂ 축약
056 축약_선어말어미_ㄴㄹㅁㅂ 축약
057 축약_어미_보조사_ㄴㄹ_1 축약
058 축약_조사_보조사_ㄴㄹ_1 축약
059 축약_명사류_보조사_ㄴㄹ_1 축약
060 축약_어미_보조사_ㄴㄹ_0 축약
061 축약_조사_보조사_ㄴㄹ_0 축약
062 축약_기타_보조사_ㄴㄹ_0 축약
063 축약_어간_ㅁ 축약
064 축약_중성중복_아어 축약 ← 가+아
065 축약_중성중복_았었 축약
066 축약_이중모음 축약 ← 보+아
067 축약_ㅐㅔ_어 축약 ← 개+어
068 축약_의존명사_이_조사 축약
069 축약_의존명사_이_지정사 지정사
070 축약_대명사_의 축약
071 축약_대명사_에 축약
072 축약_있_0 축약
073 축약_방언_었 축약 돌아가싯다=돌아가+시+ㅅ+다, 사삣다=사+어+삐+ㅅ+다
074 축약_외_어었_왜왰_오류 축약 (오류) ↔ +었
075 축약_세셔_선어말_시어 축약
076 축약_쇼슈_선어말_시오 축약
077 축약_죠_0 축약
078 축약_ㅎ_어근 축약
079 축약_ㅎ_어미_ㄱㅈㄷ_1 축약
080 축약_잖_지않 축약 ← 지+않
081 축약_인용_하_ㄹㄴ 축약
082 축약_인용_대래재_도서 축약
083 축약_인용_대래재_하잖_앞 축약
084 축약_인용_이_대래재_하잖_1 축약
085 축약_인용_하시_어_1 축약
086 축약_인용_하시_었_1 축약
087 축약_잖 축약
088 축약_인용_하_얄 축약
089 축약_이_낸들 축약
090 축약_체언_이에_1 축약
091 축약_의존명사_이_ㄴㄹㅂ 축약
092 축약_부정_니에_0 축약
093 생략_하_1 생략
094 생략_하_어미축약_1 생략
095 생략_이_모음 생략
096 생략_이_자음 생략
097 생략_이_한글아님 생략
098 생략_이_인용_축약_이라하_ㄹ_1 생략
099 생략_이_인용_축약_이라하_아_1 생략
100 생략_이_축약_시어_1 생략
101 생략_이_시기_ㄴㄹㅂ_1 생략
102 생략_이_잖_이지않_1 생략
103 생략_이_인용 생략
104 생략_모음체언_이_ㄴㄹㅂ_1 생략 고리킵니까=고리키/NNP+이/VCP+ㅂ니까
105 생략_모음체언_이_ㄴㄹㅂ_0 생략 개인 킵니다=키/NNG+이/VCP+ㅂ니다/EF
106 생략_모음조사_이_ㄴㄹㅂ 생략
107 생략_명사말음_이_인일입_0 생략
108 활용_지정사_이_1 지정사 수비다=수비/NNG+이/VCP+다/EF (서술격조사)
109 활용_지정사_어미_었_오류_1 지정사 서술격조사 + 결합 오류 탐지
110 활용_부정지정사_어미_야_0 지정사
111 활용_지정사_어미_요_1 지정사 거예요=거+이+에요
112 활용_어미_분절_아어_오류 활용 어간 모음과 어미 아/어 결합 오류 탐지
113 활용_이_모음순행동화_요여_오류 활용 되여(오류) ↔ 되어
114 기타_마_말아 기타 ← 말+아
119 SP 공백 어절 사이 공백(띄어쓰기) 처리

레이블 이름 읽는 법

레이블 이름은 현상_세부조건_변형을 밑줄(_)로 이어 붙인 형태입니다. 예를 들어 생략_모음체언_이_ㄴㄹㅂ_0은 "모음으로 끝나는 체언 뒤에서 지정사 가 생략되고 뒤따르는 자음 ㄴ/ㄹ/ㅂ과 얽히는 경우(변형 0)"를 뜻합니다. 이름만 읽어도 어떤 한국어 현상을 다루는지 짐작할 수 있습니다. 예시 칸이 비어 있는 레이블도 이름의 구성 요소로 의미를 유추할 수 있습니다.

자주 묻는 질문

Q. 바른의 분절 레이블은 모두 몇 개인가요?

내부 분절 모델 기준 000~114의 115개 레이블에 공백 처리 레이블 SP를 더해 모두 116개입니다. 이 가운데 이름에 _오류가 붙은 레이블과 ㅂ불규칙 특수 활용형을 합쳐, 발표 자료에서는 오류 탐지 레이블을 14개로 소개합니다.

Q. 116개 레이블 목록을 어디서 볼 수 있나요?

이 문서의 전체 표에서 번호·이름·분류·예시를 함께 볼 수 있습니다. 레이블은 별도의 규칙 파일이 아니라 학습된 분절 모델(seg-model.onnx)의 가중치 안에 인코딩되어 있으며, 표의 번호는 모델 버전에 따라 일부 달라질 수 있습니다.

Q. 오류탐지로 표시된 레이블은 무엇인가요?

분절 단계에서 형태적 오류(불규칙 활용 오류, 축약·모음 순행동화 오류 등)를 식별하는 레이블입니다. 바른은 형태소를 복원하는 동시에 "이 어절은 형태가 틀렸다"는 신호를 내며, 이 신호가 맞춤법 검사기로 이어집니다.

Q. 예시가 비어 있는 레이블은 무슨 뜻인가요?

예시 칸은 신뢰할 수 있는 대표 사례가 확인된 레이블에만 채웠습니다. 비어 있어도 레이블 이름(현상_세부조건_변형)으로 어떤 한국어 형태 변화를 다루는지 알 수 있습니다.

도움이 되었나요?