콘텐츠로 이동

8대 큰 형태 단위

8대 큰 형태 단위(N/J/V/E/A/M/I/S) 설계 철학

바른은 47개의 세부 품사를 붙이기에 앞서, 한국어 형태소를 8개의 큰 형태 단위로 먼저 묶습니다. 체언(N), 조사(J), 용언(V), 어미(E), 부사어(A), 관형어(M), 감탄사(I), 기호(S)가 그것입니다. 이 8대 단위는 분절 단계의 골격이자, 한국어 토크나이저 문제를 정면으로 풀기 위한 설계입니다.

8대 큰 형태 단위

기호 큰 단위 한국어 이름 포함하는 47품사 예
N 체언 명사·대명사·수사 NNG 일반명사, NNP 고유명사, NNB 의존명사, NP 대명사, NR 수사
J 조사 격조사·보조사·접속조사 JKS 주격, JKO 목적격, JKB 부사격, JX 보조사, JC 접속
V 용언 동사·형용사·지정사 VV 동사, VA 형용사, VX 보조용언, VCP 긍정지정사, VCN 부정지정사
E 어미 선어말·종결·연결·전성어미 EP 선어말, EF 종결, EC 연결, ETN 명사형전성, ETM 관형형전성
A 부사어 부사 MAG 일반부사, MAJ 접속부사
M 관형어 관형사 MMA 성상관형사, MMD 지시관형사, MMN 수관형사
I 감탄사 독립언 IC 감탄사
S 기호 문장부호·외국어·숫자 SF 마침표, SP 쉼표, SL 외국어, SH 한자, SN 숫자

큰 단위에서 세부 품사로

분석은 큰 단위를 먼저 정한 뒤 그 안에서 세부 품사로 좁혀 들어가는 흐름을 따릅니다.

graph TD
  EOJ[학교에서] --> SEG[분절];
  SEG --> N[학교 → N 체언];
  SEG --> J[에서 → J 조사];
  N --> NNG[NNG 일반명사];
  J --> JKB[JKB 부사격조사];

위 예에서 학교에서는 먼저 체언(N) 학교와 조사(J) 에서로 갈립니다. 그다음 체언은 일반명사 NNG로, 조사는 부사격조사 JKB로 세분됩니다. 즉 최종 결과는 학교/NNG + 에서/JKB입니다.

왜 8대 단위를 먼저 묶는가

교착어와 토크나이저

트랜스포머 모델에서 한국어 토크나이저는 늘 골치 아픈 문제입니다. 한국어는 교착어라서 한 어절 안에 여러 형태소가 붙고, 활용·축약·생략이 끊임없이 일어납니다. 먹었습니다처럼 한 어절이 먹/VV + 었/EP + 습니다/EF로 풀리는 일이 일상입니다.

바른은 47개 품사를 한 번에 맞히는 대신, 한국어 문법의 자연스러운 분류인 체언·용언·조사·어미라는 큰 틀을 먼저 잡습니다. 이렇게 하면 분절 모델이 "여기는 체언이 끝나고 조사가 시작되는 경계"처럼 더 단순하고 명확한 신호를 학습할 수 있습니다. 세부 품사 47개는 그 위에서 결정되므로 전체 분석이 안정적입니다.

큰 틀이 주는 강점

8대 단위는 한국어 학교 문법의 9품사 체계와도 자연스럽게 맞닿아 있어, 분석 결과를 사람이 직관적으로 이해하기 쉽습니다. 큰 단위가 맞으면 세부 품사가 틀려도 의미 해석에 큰 무리가 없다는 점도 견고함의 비결입니다.

Tokenize는 47품사가 아니라 8성분을 쓴다

형태소 분석(AnalyzeSyntax)이 형태소마다 47개 세부 품사를 붙이는 것과 달리, 단어만 분리하는 Tokenize47품사 체계가 아니라 8성분 체계를 사용합니다. 세부 품사까지 내려가지 않고, 위 8대 큰 형태 단위로만 묶어 단어를 끊어내는 것입니다.

기호 8성분 기호 8성분
N 체언 J 조사
V 용언 E 어미
A 부사 S 기호
M 관형어 I 감탄사

세부 품사가 필요 없고 "어디서 단어가 끊기는가"만 알면 되는 검색 색인·전처리 같은 용도에서는 47품사보다 가벼운 8성분 체계가 더 실용적입니다.

자주 묻는 질문

Q. 8대 큰 형태 단위는 무엇인가요?

체언(N), 조사(J), 용언(V), 어미(E), 부사어(A), 관형어(M), 감탄사(I), 기호(S)입니다. 47개 세부 품사를 이 8개의 큰 갈래로 묶은 것입니다.

Q. 큰 단위와 47품사는 어떤 관계인가요?

큰 단위는 세부 품사의 상위 분류입니다. 예를 들어 체언(N) 안에 일반명사(NNG), 고유명사(NNP), 의존명사(NNB), 대명사(NP), 수사(NR)가 들어 있습니다.

Q. 왜 큰 단위를 먼저 나누나요?

한국어는 교착어라 한 어절에 여러 형태소가 붙습니다. 체언·용언·조사·어미라는 큰 틀을 먼저 잡으면 분절 경계가 명확해지고, 그 위에서 세부 품사를 정하므로 분석이 안정적입니다.

Q. Tokenize는 47품사를 쓰나요?

아니요. 단어만 분리하는 Tokenize는 47품사 체계가 아니라 8성분 체계 (N 체언, V 용언, A 부사, M 관형어, J 조사, E 어미, S 기호, I 감탄사)를 사용합니다. 세부 품사가 필요 없는 검색 색인·전처리 같은 용도에 더 가볍고 실용적입니다.

도움이 되었나요?