복합명사 자동 분해

형태소 분석 이후의 후처리 단계에서 하나의 명사로 인식된 어절을 다시 살펴 등재된 복합명사라면 구성 명사로 나눕니다. 분해 지점은 ^ 기호로 표시되어, 정보통신기술이 정보^통신^기술로 나뉩니다.

복합명사를 의미 단위로 분해하면 검색 엔진에서 부분 단어 검색이 매칭되고, LLM·RAG 파이프라인의 청킹·임베딩 단계에서 의미가 보존되어 검색 정확도가 향상됩니다.

네. 사용자 사전의 복합명사 분리 사전(CP^)에 ^ 기호로 분리 지점을 표시해 등록하면 해당 단어를 원하는 지점에서 분해할 수 있습니다. 도메인 전문 용어를 정확히 다루고 싶을 때 유용합니다.

네. 복합명사를 무조건 잘게 쪼개면 원래 하나의 개념이라는 정보가 사라지므로, 바른은 분해 지점을 ^ 기호로 표시해 정보통신기술을 정보^통신^기술처럼 남깁니다. 그래서 쓰는 쪽이 통째로 쓸지 구성 명사로 쪼개 쓸지 선택할 수 있습니다.

복합명사 자동 분해 — 검색·LLM 토크나이저 정확도가 올라가는 원리

바른은 여러 단어가 붙어 만들어진 복합명사를 자동으로 분해합니다. 정보통신기술을 정보 + 통신 + 기술처럼 의미 단위로 쪼개는 일인데, 이 기능은 검색 엔진의 색인 정확도와 LLM·RAG 시스템의 토크나이저 품질을 끌어올리는 데 큰 역할을 합니다.

복합명사 분해는 형태소 분석 이후의 후처리 단계에서 이루어집니다. 형태소 분석으로 하나의 명사로 인식된 어절을 다시 살펴, 등재된 복합명사라면 구성 명사들로 나눕니다.

graph TD
  IN[한국어자연어처리] --> SCAN[복합명사 분해];
  SCAN --> A[한국어];
  SCAN --> B[자연어];
  SCAN --> C[처리];

분해 지점은 결과에서 ^ 기호로 표시됩니다. 즉 원래 한 덩어리였던 복합명사가 어디에서 갈라졌는지 한눈에 알 수 있습니다.

한국어자연어처리  →  한국어^자연어^처리

왜 한 덩어리로도, 쪼갠 형태로도 보여줄까

복합명사를 무조건 잘게 쪼개면 원래 하나의 개념이었다는 정보가 사라집니다. 바른은 ^ 표시로 "원래는 한 복합명사인데 이 지점들에서 나뉜다"는 사실을 함께 남겨, 쓰는 쪽이 통째로 쓸지 쪼개 쓸지 고를 수 있게 합니다.

복합명사를 쪼개면 검색과 LLM 파이프라인에서 다음과 같은 이점이 생깁니다.

검색 엔진

정보통신기술로만 색인하면 사용자가 통신이나 기술로 검색했을 때 문서가 걸리지 않습니다. 정보^통신^기술로 분해해 색인하면 부분 단어 검색에도 정확히 매칭됩니다.

LLM·RAG 토크나이저

LLM의 토크나이저는 한국어 복합명사를 의미와 무관한 조각으로 잘게 부수기 쉽습니다. 바른이 의미 단위로 먼저 분해해 주면, 청크 분할이나 임베딩 단계에서 의미가 보존되어 검색 정확도(retrieval)가 올라갑니다.

복합명사 분해는 사용자 사전의 복합명사 분리 사전(CP^)과 함께 동작합니다. 사용자가 직접 ^로 분리 지점을 지정한 복합명사를 등록하면, 그 단어를 만났을 때 원하는 지점에서 분해됩니다. 도메인 전문 용어를 정확히 다루고 싶을 때 유용합니다.

원래 하나의 복합명사였는데 이 지점에서 구성 명사로 나뉜다는 분해 지점 표시입니다. 정보통신기술이 정보^통신^기술로 표시되는 식입니다.

복합명사를 의미 단위로 쪼개면 부분 단어 검색이 매칭되고, RAG 파이프라인의 청킹·임베딩 단계에서 의미가 보존되어 검색 정확도가 올라갑니다.

네. 사용자 사전의 복합명사 분리 사전(CP^)에 ^로 분리 지점을 표시해 등록하면, 해당 단어를 원하는 지점에서 분해할 수 있습니다.

도움이 되었나요?