콘텐츠로 이동

47품사를 채택한 이유

국립국어원 47품사를 바른이 채택한 이유

바른은 형태소에 품사를 붙일 때 국립국어원 기준의 47개 품사 태그셋을 사용합니다. 이는 한국정보통신기술협회(TTA)의 한국어 형태소 태그셋 표준과 맞닿아 있는 체계입니다. 독자적인 태그를 만들지 않고 이 표준을 채택한 이유는 일관성호환성 때문입니다.

47품사 한눈에 보기

47품사는 큰 갈래별로 다음과 같이 정리됩니다.

큰 갈래 품사 태그
체언 NNG 일반명사, NNP 고유명사, NNB 의존명사, NP 대명사, NR 수사
용언 VV 동사, VA 형용사, VX 보조용언, VCP 긍정지정사, VCN 부정지정사
수식언 MMA 성상관형사, MMD 지시관형사, MMN 수관형사, MAG 일반부사, MAJ 접속부사
독립언 IC 감탄사
조사 JKS 주격, JKC 보격, JKG 관형격, JKO 목적격, JKB 부사격, JKV 호격, JKQ 인용격, JX 보조사, JC 접속
어미 EP 선어말, EF 종결, EC 연결, ETN 명사형전성, ETM 관형형전성
접사·어근 XPN 체언접두사, XSN 명사파생접미사, XSV 동사파생접미사, XSA 형용사파생접미사, XR 어근
기호 SF 마침표·물음표·느낌표, SP 쉼표·가운뎃점·콜론·빗금, SS 따옴표·괄호·줄표, SE 줄임표, SO 붙임표, SW 기타기호, SL 외국어, SH 한자, SN 숫자
추정·불능 NF 명사추정, NV 용언추정, NA 분석불능

UNK와 분석불능

위 표 외에 미분류를 뜻하는 UNK가 있습니다. 또한 모델이 형태는 명사·용언으로 추정하지만 확정하기 어려울 때는 NF(명사추정)·NV(용언추정)를, 끝내 분석이 어려우면 NA(분석불능)를 배정합니다. 이 태그들은 신조어나 오타를 만났을 때의 안전장치 역할을 합니다.

표준을 따른다는 것의 의미

graph LR
  STD[국립국어원·TTA 표준 태그셋] --> BAREUN[바른 47품사];
  BAREUN --> CORPUS[학습 말뭉치 태깅 호환];
  BAREUN --> TOOL[다른 분석기와 비교 가능];
  BAREUN --> USER[연구자·개발자 학습 비용 절감];

왜 표준 태그셋인가

  • 일관성: 세종 말뭉치 등 표준 태그셋으로 구축된 대규모 말뭉치를 그대로 학습에 쓸 수 있습니다.
  • 호환성: 다른 형태소 분석기·연구 결과와 태그가 같으므로 결과를 직접 비교·이전할 수 있습니다.
  • 학습 비용: 이미 학계와 산업계에 널리 알려진 체계라 새 태그를 익힐 필요가 없습니다.

독자 태그셋을 만들면 처음에는 편할지 몰라도, 기존 말뭉치를 다시 태깅해야 하고 다른 도구와 결과를 맞춰볼 수 없습니다. 바른은 표준을 따름으로써 이 비용을 처음부터 없앴습니다.

분석 예시

나는 학교에 간다  →  나/NP + 는/JX + 학교/NNG + 에/JKB + 가/VV + ㄴ다/EF

대명사(NP), 보조사(JX), 일반명사(NNG), 부사격조사(JKB), 동사(VV), 종결어미(EF)가 모두 표준 태그 그대로 부여됩니다.

자주 묻는 질문

Q. 바른의 품사 태그셋은 몇 개인가요?

국립국어원 기준의 47개 품사를 사용합니다. 여기에 미분류를 뜻하는 UNK와 명사추정(NF)·용언추정(NV)·분석불능(NA) 같은 보조 태그가 함께 쓰입니다.

Q. 왜 독자 태그셋을 만들지 않았나요?

일관성과 호환성 때문입니다. 표준 태그셋을 쓰면 세종 말뭉치 같은 기존 말뭉치를 그대로 학습에 쓸 수 있고, 다른 분석기·연구 결과와 태그가 같아 결과를 직접 비교할 수 있습니다.

Q. 분석이 안 되는 단어는 어떤 태그가 붙나요?

명사로 추정되면 NF, 용언으로 추정되면 NV, 끝내 판단이 어려우면 NA(분석불능)가 붙습니다. 이 태그들은 신조어·오타를 만났을 때의 안전장치입니다.

도움이 되었나요?