한국어 형태소 분석이란
한국어 형태소 분석이란 무엇이며 왜 필요한가요?
한국어 형태소 분석은 문장을 의미를 가지는 가장 작은 단위인 형태소로 나누고,
각 형태소에 품사를 붙이는 자연어 처리 기술입니다. 예를 들어 "바른을 사용해서"라는 어절은
바른/NNP + 을/JKO + 사용하/VV + 아서/EC 처럼 분석됩니다. 바른(bareun)은
이 작업을 99.6%의 품사 태깅 정확도로 수행하는 한국어 형태소 분석기입니다.
형태소가 정확히 무엇인가요?
형태소는 "뜻을 가진 가장 작은 말의 조각"입니다. 한 어절(띄어쓰기 단위) 안에는 여러 형태소가
들어 있습니다. "먹었다"는 먹/VV + 었/EP + 다/EF 세 형태소로 이루어집니다.
바른은 국립국어원 기준 47개 품사 체계로 형태소를 분류하고, 크게는 체언(N), 조사(J),
용언(V), 어미(E), 부사어(A), 관형어(M), 감탄사(I), 기호(S)의 8대 형태 단위로 묶습니다.
품사 체계가 궁금하면 47개 품사를 쓰는 이유와
8대 형태 단위를, 태그 목록은 태그 정보를 참고하세요.
한국어는 왜 형태소 분석이 특히 어려운가요?
한국어는 교착어이기 때문입니다. 교착어는 어근에 조사·어미 같은 문법 요소가 줄줄이 달라붙어 하나의 어절을 이룹니다. 영어처럼 띄어쓰기만으로 단어를 나눌 수 없고, 활용·축약·생략이 끊임없이 일어납니다.
교착어의 까다로움
"갔어요"는 가/VV + 았/EP + 어요/EF로 분석되지만, 표면에는 가의 모음이 축약되어
드러나지 않습니다. 바른은 이런 활용·축약·생략을 복원하고, 복원된 형태소가
원래 음절의 어느 위치에서 왔는지까지 정확히 추적합니다.
또한 같은 표면형이 여러 갈래로 해석되는 중의성도 큰 난관입니다.
"가는"은 문맥에 따라 가늘다, 가다, 갈다로 분석될 수 있습니다.
바른은 표면형은 같지만 분석이 다른 단어 12,175개를 찾아내 형태정보를 포함한 워드 임베딩으로
구별하며(가#J·가-#V·가#N을 각각 다른 토큰으로 임베딩), 이 중의성 데이터를
공개하고 있습니다.
이 중의성 해소 성능은 35,396 문장·8,285 표면형 평가셋으로 검증합니다.
중의성 데이터의 구성은 중의성 데이터셋 문서에 자세히 정리되어 있습니다.
형태소 분석은 어디에 쓰이나요?
형태소 분석은 한국어를 다루는 거의 모든 자연어 처리의 출발점입니다.
- 검색엔진·색인: 어절을 그대로 색인하면 "사용해서"와 "사용하고"가 다른 단어로 취급됩니다.
형태소 분석으로 어근
사용하를 뽑아내면 검색 정확도가 크게 올라갑니다. - 키워드 추출·토픽 분석: 체언(명사)만 골라내 핵심 키워드를 뽑습니다.
바른은
nouns()로 명사만,verbs()로 용언만 손쉽게 추출합니다. - 감성 분석·텍스트 마이닝: 용언·부사의 품사 정보를 활용해 감정·태도를 정밀하게 분류합니다.
- 음성 인식·구어 처리: 바른은
감사합니당,알겠어용같은 구어 어미도 올바르게 분석합니다. - LLM 전처리·RAG: 검색 정확도와 토큰 효율을 높이는 전처리 단계로 쓰입니다.
바른의 형태소 분석은 무료인가요?
네. 바른의 형태소 분석 기능은 개인·기업·학교·언론기관이 연구 목적으로 사용하는 경우
무료입니다. 클라우드(api.bareun.ai)에서도 5만 어절까지 무료로 써볼 수 있습니다.
상용 서비스에 적용하려면 유료 라이선스가 필요합니다.
자주 묻는 질문
Q. 형태소 분석과 형태소 분석기는 어떻게 다른가요?
형태소 분석은 기술·작업을 가리키는 말이고, 형태소 분석기는 그 작업을 수행하는 프로그램입니다. 바른은 한국어 형태소 분석기 엔진이자 동시에 한국어 맞춤법 검사기입니다.
Q. 형태소 분석과 토큰화(tokenization)는 같은 건가요?
비슷하지만 다릅니다. 단순 토큰화는 글자나 어절로만 나누지만, 형태소 분석은 각 조각의 품사와 출처(사전·미등록단어 여부)까지 함께 알려줍니다. 바른은 품사 태깅 없이 8대 형태 단위로만 나누는 분절(단어 분리) 결과도 따로 제공합니다.
Q. 어떤 품사 체계를 쓰나요?
국립국어원 기준 47개 품사 체계를 사용합니다. 명사·동사·형용사·조사·어미 등을 세분화해 태그로 표시합니다. 그 앞 분절 단계에서는 한국어 활용 특성을 분석해 찾아낸 116개 분절 규칙(이 중 14개는 오류 탐지용)으로 어절을 8대 형태 단위로 나눕니다. 직접 분석을 호출해보려면 API로 형태소 분석하기를 참고하세요.
관련 문서
Q. 같은 표면형의 중의성은 어떻게 구별하나요?
표면형은 같지만 분석이 다른 단어 12,175개를 형태정보를 포함한 워드 임베딩으로 구별합니다.
예를 들어 조사 가#J, 용언 가-#V, 명사 가#N을 각각 다른 토큰으로 임베딩합니다.
도움이 되었나요?