복합명사 자동 분해
복합명사 자동 분해 — 검색·LLM 토크나이저 정확도가 올라가는 원리
바른은 여러 단어가 붙어 만들어진 복합명사를 자동으로 분해합니다.
정보통신기술을 정보 + 통신 + 기술처럼 의미 단위로 쪼개는 일인데,
이 기능은 검색 엔진의 색인 정확도와 LLM·RAG 시스템의 토크나이저 품질을 끌어올리는 데 큰 역할을 합니다.
복합명사 분해는 어떻게 동작하나
복합명사 분해는 형태소 분석 이후의 후처리 단계에서 이루어집니다. 형태소 분석으로 하나의 명사로 인식된 어절을 다시 살펴, 등재된 복합명사라면 구성 명사들로 나눕니다.
graph TD
IN[한국어자연어처리] --> SCAN[복합명사 분해];
SCAN --> A[한국어];
SCAN --> B[자연어];
SCAN --> C[처리];
분해 지점은 결과에서 ^ 기호로 표시됩니다. 즉 원래 한 덩어리였던 복합명사가
어디에서 갈라졌는지 한눈에 알 수 있습니다.
왜 한 덩어리로도, 쪼갠 형태로도 보여줄까
복합명사를 무조건 잘게 쪼개면 원래 하나의 개념이었다는 정보가 사라집니다.
바른은 ^ 표시로 "원래는 한 복합명사인데 이 지점들에서 나뉜다"는 사실을 함께 남겨,
쓰는 쪽이 통째로 쓸지 쪼개 쓸지 고를 수 있게 합니다.
검색·RAG에서 정확도가 올라가는 이유
복합명사를 쪼개면 검색과 LLM 파이프라인에서 다음과 같은 이점이 생깁니다.
검색 엔진
정보통신기술로만 색인하면 사용자가 통신이나 기술로 검색했을 때 문서가 걸리지 않습니다.
정보^통신^기술로 분해해 색인하면 부분 단어 검색에도 정확히 매칭됩니다.
LLM·RAG 토크나이저
LLM의 토크나이저는 한국어 복합명사를 의미와 무관한 조각으로 잘게 부수기 쉽습니다. 바른이 의미 단위로 먼저 분해해 주면, 청크 분할이나 임베딩 단계에서 의미가 보존되어 검색 정확도(retrieval)가 올라갑니다.
| 활용처 | 분해 전 | 분해 후 | 효과 |
|---|---|---|---|
| 검색 색인 | 정보통신기술 |
정보 / 통신 / 기술 |
부분어 검색 매칭 |
| RAG 청킹 | 한 덩어리 토큰 | 의미 단위 토큰 | 임베딩 의미 보존 |
| 키워드 추출 | 긴 복합어 1개 | 핵심어 여러 개 | 키워드 풍부화 |
사용자 사전으로 분해 지점을 제어한다
복합명사 분해는 사용자 사전의 복합명사 분리 사전(CP^)과 함께 동작합니다.
사용자가 직접 ^로 분리 지점을 지정한 복합명사를 등록하면, 그 단어를 만났을 때
원하는 지점에서 분해됩니다. 도메인 전문 용어를 정확히 다루고 싶을 때 유용합니다.
자주 묻는 질문
Q. 복합명사 분해 결과의 ^는 무엇을 뜻하나요?
원래 하나의 복합명사였는데 이 지점에서 구성 명사로 나뉜다는 분해 지점 표시입니다.
정보통신기술이 정보^통신^기술로 표시되는 식입니다.
Q. 복합명사 분해가 검색·RAG에 왜 도움이 되나요?
복합명사를 의미 단위로 쪼개면 부분 단어 검색이 매칭되고, RAG 파이프라인의 청킹·임베딩 단계에서 의미가 보존되어 검색 정확도가 올라갑니다.
Q. 분해 지점을 직접 지정할 수 있나요?
네. 사용자 사전의 복합명사 분리 사전(CP^)에 ^로 분리 지점을 표시해
등록하면, 해당 단어를 원하는 지점에서 분해할 수 있습니다.
도움이 되었나요?