47품사를 채택한 이유
국립국어원 47품사를 바른이 채택한 이유
바른은 형태소에 품사를 붙일 때 국립국어원 기준의 47개 품사 태그셋을 사용합니다.
이는 한국정보통신기술협회(TTA)의 한국어 형태소 태그셋 표준과 맞닿아 있는 체계입니다.
독자적인 태그를 만들지 않고 이 표준을 채택한 이유는 일관성과 호환성 때문입니다.
47품사 한눈에 보기
47품사는 큰 갈래별로 다음과 같이 정리됩니다.
| 큰 갈래 | 품사 태그 |
|---|---|
| 체언 | NNG 일반명사, NNP 고유명사, NNB 의존명사, NP 대명사, NR 수사 |
| 용언 | VV 동사, VA 형용사, VX 보조용언, VCP 긍정지정사, VCN 부정지정사 |
| 수식언 | MMA 성상관형사, MMD 지시관형사, MMN 수관형사, MAG 일반부사, MAJ 접속부사 |
| 독립언 | IC 감탄사 |
| 조사 | JKS 주격, JKC 보격, JKG 관형격, JKO 목적격, JKB 부사격, JKV 호격, JKQ 인용격, JX 보조사, JC 접속 |
| 어미 | EP 선어말, EF 종결, EC 연결, ETN 명사형전성, ETM 관형형전성 |
| 접사·어근 | XPN 체언접두사, XSN 명사파생접미사, XSV 동사파생접미사, XSA 형용사파생접미사, XR 어근 |
| 기호 | SF 마침표·물음표·느낌표, SP 쉼표·가운뎃점·콜론·빗금, SS 따옴표·괄호·줄표, SE 줄임표, SO 붙임표, SW 기타기호, SL 외국어, SH 한자, SN 숫자 |
| 추정·불능 | NF 명사추정, NV 용언추정, NA 분석불능 |
UNK와 분석불능
위 표 외에 미분류를 뜻하는 UNK가 있습니다. 또한 모델이 형태는 명사·용언으로 추정하지만
확정하기 어려울 때는 NF(명사추정)·NV(용언추정)를, 끝내 분석이 어려우면 NA(분석불능)를
배정합니다. 이 태그들은 신조어나 오타를 만났을 때의 안전장치 역할을 합니다.
표준을 따른다는 것의 의미
graph LR
STD[국립국어원·TTA 표준 태그셋] --> BAREUN[바른 47품사];
BAREUN --> CORPUS[학습 말뭉치 태깅 호환];
BAREUN --> TOOL[다른 분석기와 비교 가능];
BAREUN --> USER[연구자·개발자 학습 비용 절감];
왜 표준 태그셋인가
- 일관성: 세종 말뭉치 등 표준 태그셋으로 구축된 대규모 말뭉치를 그대로 학습에 쓸 수 있습니다.
- 호환성: 다른 형태소 분석기·연구 결과와 태그가 같으므로 결과를 직접 비교·이전할 수 있습니다.
- 학습 비용: 이미 학계와 산업계에 널리 알려진 체계라 새 태그를 익힐 필요가 없습니다.
독자 태그셋을 만들면 처음에는 편할지 몰라도, 기존 말뭉치를 다시 태깅해야 하고 다른 도구와 결과를 맞춰볼 수 없습니다. 바른은 표준을 따름으로써 이 비용을 처음부터 없앴습니다.
분석 예시
대명사(NP), 보조사(JX), 일반명사(NNG), 부사격조사(JKB), 동사(VV), 종결어미(EF)가 모두 표준 태그 그대로 부여됩니다.
자주 묻는 질문
Q. 바른의 품사 태그셋은 몇 개인가요?
국립국어원 기준의 47개 품사를 사용합니다. 여기에 미분류를 뜻하는 UNK와 명사추정(NF)·용언추정(NV)·분석불능(NA) 같은 보조 태그가 함께 쓰입니다.
Q. 왜 독자 태그셋을 만들지 않았나요?
일관성과 호환성 때문입니다. 표준 태그셋을 쓰면 세종 말뭉치 같은 기존 말뭉치를 그대로 학습에 쓸 수 있고, 다른 분석기·연구 결과와 태그가 같아 결과를 직접 비교할 수 있습니다.
Q. 분석이 안 되는 단어는 어떤 태그가 붙나요?
명사로 추정되면 NF, 용언으로 추정되면 NV, 끝내 판단이 어려우면 NA(분석불능)가 붙습니다. 이 태그들은 신조어·오타를 만났을 때의 안전장치입니다.
도움이 되었나요?