의료 한국어
의료 한국어 — 의학용어·약어 사전 적용
의료 텍스트(진료 기록·간호 기록·상담 메모)는 의학용어와 약어 가 빽빽합니다.
일반 형태소 분석기는 이런 용어를 미등록단어로 처리하거나 엉뚱하게 쪼개,
증상·약물 통계나 검색이 어긋납니다. 바른은 사용자 사전으로 의학 용어를 등록해 정확히 인식합니다.
문제 상황
고혈압성심장질환,급성심근경색같은 의학용어가 토막 납니다.EKG,CT같은 영문 약어가 일반 외국어 토큰으로만 잡혀 의미가 빠집니다.- 용어가 흔들리면 환자 기록 검색과 코호트 추출이 부정확해집니다.
바른을 어떻게 적용하나
의학용어는 복합명사 사전(cp_set) 또는 고유명사 사전(np_set) 에 등록해 한 단어로 유지합니다.
영문 약어도 사전에 등록하면 의미 단위로 다룰 수 있습니다. 분야 용어를 모아 등록하는 절차는
도메인 사전 구축 워크플로를, 미등록단어가 생기는 원리는
미등록단어(OOV) 처리를 참고하세요.
graph TD
REC[진료·간호 기록] --> DICT[의학용어·약어 사용자 사전];
DICT --> TAG[바른 형태소 분석];
TAG --> TERM[의학용어 정확 인식];
TERM --> STAT[증상·약물 통계·검색];
from bareunpy import Tagger
tagger = Tagger("koba-XXXX-...", "localhost")
# 의학용어·약어 등록
cust = tagger.custom_dict("medical_terms")
cust.copy_cp_set({"고혈압성심장질환", "급성심근경색"})
cust.copy_np_set({"EKG", "CT"})
cust.update()
tagger.set_domain("medical_terms")
res = tagger.tags(["급성심근경색 의심되어 EKG 시행함."])
print(res.nouns())
긴 의학용어와 영문 약어가 각각 한 단어로 인식됩니다.
결과와 이점
| 항목 | 사전 미적용 | 의학용어 사전 적용 |
|---|---|---|
| 긴 의학용어 | 여러 명사로 분해 | 한 단어 유지 |
| 영문 약어 | 의미 없는 외국어 토큰 | 등록 용어로 인식 |
| 통계·검색 | 부정확 | 정합성 확보 |
개인정보 주의
의료 텍스트는 민감정보를 포함합니다. 폐쇄망이 필요한 경우 클라우드가 아닌 온프레미스(설치형) 바른 으로 처리하세요. 형태소 분석은 설치형으로 운영할 수 있습니다.
자주 묻는 질문
Q. 약어와 일반 단어가 겹치면 어떻게 하나요?
문맥에 따라 다르게 해석되는 약어는 도메인 사전을 분리해 운영하거나,
CheckConflict로 충돌을 점검한 뒤 우선순위가 높은 사전을 먼저 지정하세요.
여러 사전 운영은 여러 사전 함께 쓰기를 참고하세요.
Q. 용어가 수천 개인데 한 번에 등록되나요?
사용자 사전은 집합 단위로 대량 등록할 수 있습니다. 용어 집합을 만들어
copy_cp_set·copy_np_set에 넘긴 뒤 update()로 반영하세요.
Q. 민감정보 때문에 클라우드를 못 씁니다.
형태소 분석은 설치형(리눅스 .deb, 윈도우 .exe, macOS .pkg, 도커)으로 폐쇄망에서 운영할 수 있습니다. 환자 데이터를 외부로 보내지 않고 내부에서 처리하세요.
Q. 의학용어를 한 번에 대량 등록할 수 있나요?
네. 사용자 사전은 집합 단위로 대량 등록할 수 있습니다. 긴 의학용어는 복합명사 사전(cp_set),
영문 약어는 고유명사 사전(np_set)으로 용어 집합을 만들어 copy_cp_set·copy_np_set에 넘긴 뒤
update()로 반영하면, 수천 개 용어도 한 번에 등록되어 한 단어로 인식됩니다.
관련 문서
- 도메인 사전 구축 워크플로 — 의학용어를 사전으로 등록
- 여러 사전 함께 쓰기 — 진료과별 사전 분리 운영
- 미등록단어(OOV) 처리 — 약어·전문용어가 빠지는 이유
도움이 되었나요?