알파벳에도 리트 같은 외계어는 이미 있는데, 왜 에어비앤비체처럼 번역기나 초보 학습자는 알아볼 수 없고 프랑스인들끼리만 알아볼 수 있는 프랑스어 에어비앤비체는 왜 없을까?
[지난 기사] 한글의 '응용력' 보여주는 에어비앤비체 http://omn.kr/1vhxq
암호화 방법을 번역기가 금방 따라잡을 수 있는 것과 그렇지 못한 것으로 나눠보자.
- 풀어쓰기(ㅍㅜㄹㅇㅓㅆㅡㄱㅣ)는 번역기가 금방 해독할 수 있다.
- '캠릿브지 대학의 연결구과'처럼 단어 안에서 글자 순서를 바꾸는 애너그램(jumbled letter) 역시 번역기가 금방 해독한다.
반면.
- 비슷하게 생긴 글자들을 끼워넣기(야민정음), 영어, 숫자, 한자 등까지 동원해 비슷한 글자 끼워넣기(외계어). 무의미한 받침 넣기, 연음, 자음 중복, 된소리, 거친소리, 이중모음 등 비슷한 발음으로 바꾸기(에어비앤비체) 등은 번역기가 따라잡기 힘들다.
물론 통계적으로 많이 등장하는 암호화 방법(또는 오타)은 시간이 지남에 따라 기계학습으로 번역기도 풀어낼 수 있게 된다. 예를 들어 teh는 이미 알아서 the로 인식하고 Untied States는 United States로 자동적으로 인식한다. 띵작은 rnasterpiece로 번역하는 센스 넘치는 번역기도 있다.
번역기가 따라잡기 힘든 암호화 방법 중 다시 분류해보면 이렇다.
- 영어에도 흔한 방법: 야민정음(ABCD를 4 !3 ( I>로 치환하는 등) 삐삐나 전신 같은 미리 정해진 숫자암호(예: 143은 I love you 의미), 외계어(야민정음의 요소에 추가로 맞춤법과 문법을 무시하고 은어까지 사용하는 방식의 leet)
- 한국어에만 있는 방법: 무의미한 받침 넣기, 연음, 자음 중복, 된소리, 거친소리, 이중모음 등 비슷한 발음으로 바꾸기 (에어비앤비체), 한글로 외국어나 방언 섞어 쓰기 (예: 이 숙소는 베리베리 더티데스. 냄새 베리머치 아리마스랑께. 탈출 쿠다사이당께.)
영어에도 가능한 암호화를 제외하고 한국어에만 가능한 방법이 에어비앤비체의 독보적 특징이라 할 수 있다. 그럼 왜 한국어에만 가능할까?
암호의 핵심은 인코딩-디코딩
이거 읽을 수 있어요 -(인코딩)-> 잏겋 읽읋 숳 있엏욯 -(디코딩)-> 이거 읽을 수 있어요
이 인코딩(부호화)과 디코딩(복호화)을 한국어 사용자는 해낼 수 있고 번역기나 한국어 초보자는 할 수 없어야 암호로서의 가치가 있다. 만일 한국어 사용자조차 읽을 수 없다면, 디코딩이 너무 어려워 암호가 될 수 없다. 또 번역기가 쉽게 풀어낸다면 디코딩이 너무 쉬워 암호가 될 수 없다. 그런데 알파벳은 발음과 철자가 매우 불규칙하여 사용자들이 무의식적으로 디코딩을 늘 하게 된다.
예를 들어 고등어라는 단어를 보자. 옥스퍼드 영어 사전에 고등어라는 뜻의 mackerel(매커럴)은 무려 31개의 다른 철자 형태가 기재되어 있다! 다음과 같다.
mackerel, macquerel, mackarell, makrall, macrill, mackril, macril, makarell, mackreel, makreill, maycril, maquerel, maccarel, mackrel, makrell, macrell, makral, mackerell, macrel, mackaral, makerell, macquerell, mackrell, makrel, makerelle, makerel, macrelle, makyrelle, makcaral, mackarel, mackeril
[k]발음이 나는 철자는 c, ck, k, q, cc, cq 등으로 다양하고, 강세가 없는 약한 [e](슈와 schwa) 발음은 어차피 있는 둥 없는 둥 발음하기 때문에 e, a, i, ie, ee, ei, y 등 무궁무진한 철자와 연결될 수 있다. 그래서 '매커럴'이라고 똑같이 발음되는 엄청나게 다양한 철자가 가능한 것이다. 또한 ou가 아우, 우, 어, 오우, 우어, 이우 등등의 발음이 나듯이, 하나의 철자도 매우 많은 발음을 갖고 있다.
게다가 같은 알파벳을 사용하는 프랑스어, 독일어, 스페인어 등의 발음 규칙이 다 다르므로, 발음과 철자의 불규칙성이 더 증폭된다. chocolate(챠클럿), Schokolade(쇼콜라데), cioccolato(쵸꼴라또), chocolat(쇼콜라) 등 다양한 형태를 계속 접하게 되니 철자와 발음이 달라져도 뜻을 해석할 수 있다.
발음과 철자가 다대다 대응이므로, 알파벳 사용자들은 머리 속에서 인코딩과 디코딩이 쉴 새 없이 이뤄져 24시간 암호 해독기가 가동 중인 셈이다. 그리고 다양한 오타와 틀린 철자법의 텍스트를 제공받는 인공지능 번역기들 역시 암호 해독을 위한 풍부한 말뭉치를 갖게 된다. 말하자면 사람들이나 번역기들이나 알파벳 버전 에어비앤비체를 늘 접해서 해독 능력을 자연스럽게 갖추는 것이다.
그런데 한국어를 표기하는 한글은 언어학 능력자인 세종대왕이 발음 하나에 글자 하나를 일대일 대응시키려는 목표를 갖고 창제했기 때문에, 알파벳과 같은 무작위적인 다양한 표기가 불가능하다(실제로 완전한 일대일 대응은 아니지만, 매우 근접했다). 그래서 한글을 번역하는 인공지능 번역기들은 잘못된 표기를 접하는 비율이 낮아 평소에 기계학습을 할 수 없었으므로 디코딩을 하기 어렵다. 또 한글 말뭉치의 양이 상대적으로 매우 적어서 배울 기회도 적다.
그리고 풀어쓰기와는 다르게 모아쓰기의 특성상 연음, 자음 중복이 완전히 다른 글자로 인식되게 할 수 있고, 무의미한 받침을 넣는 변형이 가능하다. 또한 '빠나나 께임' '찐짜루' '째~끔' 등 실제 구어에는 쓰이지만 문어로는 잘 쓰이지 않는 표기들을 써서, 번역기를 혼란에 빠뜨릴 수 있다.
무의식적으로 예상 가능한 단어의 범위를 좁혀가는 읽기의 과정
에어비앤비체나 외국어, 방언, 은어, 유행어를 사용한 암호화는 어디까지나 한국어 사용자들 사이에서는 익숙한 흔한 표현일 때만 가능하다.
즉 숙소의 상태, 호스트의 친절, 음식의 맛이나 청결 등 정보의 범주가 제한돼 있을 때 나올 단어들은 대체로 예상 가능하다. '깜잫뿌췸걔강 녀뮤 쫩뉘땋'에서 감자부-까지 읽어냈다면 -침개로 이어질 것이라고 예상할 수 있다. 너무- 다음에는 작다, 짜다, 비싸다 등 어울리는 형용사가 나올 것이라고 무의식적으로 범위를 좁히게 된다. 만일 '제큅팔랄합뉘땄'처럼 감자부침개와 전혀 어울리지 않는 말이 따라 나왔다면 '재기발랄합니다'라고 해독해내기란 거의 불가능하다.
이렇듯 에어비앤비체는 한국어 구사자들의 내면화한 언어의 통계적 구조를 활용하기 때문에, 타일러나 한국어를 고급 수준으로 구사하는 외국인들도 읽을 수 있다. 그리고 읽기에 아직 익숙하지 않은 한국 어린이들은 읽어내기 어렵다.
그리고 구글번역기에 돌렸을 때 전혀 해석이 되지 않는 한국어 문장이 자꾸 나오면, 에어비앤비 주인장들도 눈치를 채기 마련이다. 한국어 말뭉치가 늘어날수록 번역기의 성능도 좋아질 것이고, 한국어 학습자들이 늘어나면 에어비앤비체 해독 능력자도 늘어나게 된다. 한국어 및 에어비앤비체가 널리 퍼질수록 역설적으로 그 암호로서의 성격은 퇴색할 수밖에 없다.
저작권자(c) 오마이뉴스(시민기자), 무단 전재 및 재배포 금지
오탈자 신고