콘텐츠로 이동

의료 한국어

의료 한국어 — 의학용어·약어 사전 적용

의료 텍스트(진료 기록·간호 기록·상담 메모)는 의학용어와 약어 가 빽빽합니다. 일반 형태소 분석기는 이런 용어를 미등록단어로 처리하거나 엉뚱하게 쪼개, 증상·약물 통계나 검색이 어긋납니다. 바른은 사용자 사전으로 의학 용어를 등록해 정확히 인식합니다.

문제 상황

  • 고혈압성심장질환, 급성심근경색 같은 의학용어가 토막 납니다.
  • EKG, CT 같은 영문 약어가 일반 외국어 토큰으로만 잡혀 의미가 빠집니다.
  • 용어가 흔들리면 환자 기록 검색과 코호트 추출이 부정확해집니다.

바른을 어떻게 적용하나

의학용어는 복합명사 사전(cp_set) 또는 고유명사 사전(np_set) 에 등록해 한 단어로 유지합니다. 영문 약어도 사전에 등록하면 의미 단위로 다룰 수 있습니다. 분야 용어를 모아 등록하는 절차는 도메인 사전 구축 워크플로를, 미등록단어가 생기는 원리는 미등록단어(OOV) 처리를 참고하세요.

graph TD
  REC[진료·간호 기록] --> DICT[의학용어·약어 사용자 사전];
  DICT --> TAG[바른 형태소 분석];
  TAG --> TERM[의학용어 정확 인식];
  TERM --> STAT[증상·약물 통계·검색];
from bareunpy import Tagger

tagger = Tagger("koba-XXXX-...", "localhost")

# 의학용어·약어 등록
cust = tagger.custom_dict("medical_terms")
cust.copy_cp_set({"고혈압성심장질환", "급성심근경색"})
cust.copy_np_set({"EKG", "CT"})
cust.update()
tagger.set_domain("medical_terms")

res = tagger.tags(["급성심근경색 의심되어 EKG 시행함."])
print(res.nouns())
['급성심근경색', 'EKG']

긴 의학용어와 영문 약어가 각각 한 단어로 인식됩니다.

결과와 이점

항목 사전 미적용 의학용어 사전 적용
긴 의학용어 여러 명사로 분해 한 단어 유지
영문 약어 의미 없는 외국어 토큰 등록 용어로 인식
통계·검색 부정확 정합성 확보

개인정보 주의

의료 텍스트는 민감정보를 포함합니다. 폐쇄망이 필요한 경우 클라우드가 아닌 온프레미스(설치형) 바른 으로 처리하세요. 형태소 분석은 설치형으로 운영할 수 있습니다.

자주 묻는 질문

Q. 약어와 일반 단어가 겹치면 어떻게 하나요?

문맥에 따라 다르게 해석되는 약어는 도메인 사전을 분리해 운영하거나, CheckConflict로 충돌을 점검한 뒤 우선순위가 높은 사전을 먼저 지정하세요. 여러 사전 운영은 여러 사전 함께 쓰기를 참고하세요.

Q. 용어가 수천 개인데 한 번에 등록되나요?

사용자 사전은 집합 단위로 대량 등록할 수 있습니다. 용어 집합을 만들어 copy_cp_set·copy_np_set에 넘긴 뒤 update()로 반영하세요.

Q. 민감정보 때문에 클라우드를 못 씁니다.

형태소 분석은 설치형(리눅스 .deb, 윈도우 .exe, macOS .pkg, 도커)으로 폐쇄망에서 운영할 수 있습니다. 환자 데이터를 외부로 보내지 않고 내부에서 처리하세요.

Q. 의학용어를 한 번에 대량 등록할 수 있나요?

네. 사용자 사전은 집합 단위로 대량 등록할 수 있습니다. 긴 의학용어는 복합명사 사전(cp_set), 영문 약어는 고유명사 사전(np_set)으로 용어 집합을 만들어 copy_cp_set·copy_np_set에 넘긴 뒤 update()로 반영하면, 수천 개 용어도 한 번에 등록되어 한 단어로 인식됩니다.

관련 문서

도움이 되었나요?