Words & their meanings
의미의 논리적 접근과 한계
- 기존의 N-grams나 Text classification 등의 방법론에서 단어는 단순한 문자열(strings)로만 취급되며 실제 meaning(의미)은 고려되지 않음
- 논리학(logic)에서
dog의 의미는 DOG라는 술어(predicates)와 기호(symbols)로 정의됨
- ∀x DOG(x) → MAMMAL(x) 와 같은 논리식으로 단어의 의미 구조를 표현함
- 1967년 Barbara Partee의 농담("삶의 의미는 무엇인가? 삶이다")에서 알 수 있듯, 이러한 동어반복적인 논리적 접근은 언어의 본질적인 의미를 해석하는 데 큰 도움이 되지 않음
단어의 기본 형태 (Lemmas)와 의미 (Senses)
- WordNet과 같은 온라인 유의어 사전(thesaurus)을 보면 단어는 여러 층위의 의미로 구성됨
mouse라는 단어는 '수많은 작은 설치류 중 하나'를 뜻하기도 하고, '컴퓨터 커서를 제어하는 수동 조작 장치'를 의미하기도 함
- Sense 또는 Concept은 단어의 본질적인 의미 요소(meaning component)를 지칭함
- 단어의 기본 형태인 Lemma(표제어)는 여러 개의 Senses(의미)를 동시에 가질 수 있으며, 언어학에서는 이러한 특성을 Polysemous(다의적)하다고 표현함
단어 간의 구조적 관계 (Relationships Between Words)
단어의 특성 공유에 따른 분류 망

- 단어들은 발음(Pronunciation), 철자(Spelling), 의미(Meaning)의 일치 여부에 따라 다양한 범주로 묶이고 세분화됨
- 단일 특성만 공유하는 어휘군
- Homophone: 발음만 같고 철자와 의미가 완전히 다름
- Homograph: 철자만 동일하고 발음과 의미가 다름
- Synonym: 의미만 같고 발음과 철자가 다름
- 두 가지 특성을 공유하는 어휘군
- Heterograph: 발음과 의미는 같으나 철자가 다름
- Homonym: 발음은 다르지만 철자와 의미를 공유함 (예: 피로를 뜻하는
tire와 자동차 바퀴를 뜻하는 tire의 분류적 접근)
- Heteronym: 철자와 의미가 같으나 발음이 다름 (예: 버리다의
desert와 사막의 desert)
- Different spelling: 발음과 의미가 같지만 철자가 다름 (예:
gases와 gasses)
- Different pronunciation: 철자와 의미가 같지만 지역 등에 따라 발음이 다름 (예:
about과 aboot)