안녕하세요 지콘스튜디오 팀입니다. 여러분께서는 번역기로 스마트한 번역 생활을 하고 계시나요?
우리가 언어로 된 콘텐츠를 생산/소비하면서 친구들과 대화를 하다 보면, “구글 번역 같다”는 표현을 종종 주고받을 때가 있습니다. 번역 퀄리티가 그만큼 이상하다는 것이지요.
번역 퀄리티는 도대체 왜 이상한걸까요? 번역 품질 이슈는 비단 어제 오늘의 일만이 아닌데요.
사실 인공지능 번역 분야의 글로벌 선두주자 구글번역과 명실상부 대한민국의 인기 번역기 파파고는 성능이 대단히 우수합니다.
지식 수준이 높고 낮음을 막론하고 남녀노소가 언어의 장벽을 넘기 위해 자주 찾는 번역 도구이지요. 번역 전문가들이 사용하는 웬만한 번역 전문 툴 보다 번역 성능 면에서는 나은 편입니다.
“초벌번역”으로 작업을 하고 전체를 조망하면서 빠르게 수정하는 형태로 많은 사람들이 AI 번역기를 사용하고 있습니다.
그러나 많은 수의 사람들은 번역기를 “요술램프”처럼 마주합니다.
텍스트를 복사해서 번역기에 붙여넣고, 내가 원하는 표현이 뿅! 하고 나오기를 바라지요.
그렇게 기대에 미치지 못한 결과를 보며 번역기 탓을 합니다. “역시 번역기…” 정말 번역기가 잘못한 것일까요?
이번 포스팅을 통해 구글과 파파고로 대표 되는 AI 번역을 2배로 더 효과적으로 활용하는 방법을 알려드리겠습니다.
여러분의 번역 생활에 참고가 되시길 바라요~
언어는 사람의 의식과 생각이 개입된 콘텐츠입니다. 생각을 할 수 없는 AI 번역은 처음 인간에게 학습된 데이터를 통해 발전해왔습니다.
AI번역은 규칙기반 기계번역(RBMT: Rule-based Machine Translation), 예문기반 기계번역(EBMT: Example-based Machine Translation), 통계기반 기계번역(SMT: Statistical Machine Translation)으로 발전하며 현재는 최신 번역기들이 갖추고 있는 신경망 기계번역(NMT: Neural Machine Translation)까지 수많은 과정을 거쳐 지금에 이르렀지요.
이렇게 AI번역 시스템이 고도화되면서도 여전히, 그리고 앞으로도 불가능한 부분이 있습니다.
AI 번역이 스스로 생각하는 능력을 갖는 일인데요. 고도화 된 AI 번역도 사람의 원천 텍스트를 어떻게 입력하느냐에 따라 결과는 달라지게 됩니다.
결국 번역의 오류를 줄이기 위해서는 정확한 원천 텍스트를 입력해야 한다는 것이지요.
틀린 맞춤법이나 구문, 비문 등이 포함된 원천 텍스트를 입력하면 당연히 오류의 확률이 더 높아지고, NLP라고 하는 자연어처리 부분에서도 입력 언어에 따른 특징이 주요 변수가 됩니다.
특히 한국어는 입 말에 가까운 언어이기 때문에 조사의 사용이나 담화 환경에 따라 번역 오류가 다양하게 발생할 수 있습니다.
따라서 한국어 기준으로 생각해 볼 때, AI 번역 퀄리티에 영향을 주는 요소는 아래와 같이 생각해볼 수 있습니다.
길고 복잡한 문장
주어 파악이 되지 않는 경우
다의어나 동음이의어가 포함된 경우
문장 내에서의 의미 해석이 되지 않는 경우
맥락의 이해가 어려운 경우
한국어뿐만 아니라 다양한 외국어에서 길고 복잡한 문장의 경우 수많은 변수를 만들어냅니다. 길고 장황한 문장은 통사적 구조가 복잡하기 때문에 원문의 의미가 왜곡되거나 문맥의 연결이 매끄럽지 못한 경우가 발생하지요. 많은 카피라이터도 잘 쓴 글은 호흡이 짧은 글, 명확하게 이해되는 글이라고 이야기합니다. 문장이 길고 통사구조가 복잡할수록 번역 품질은 저하됩니다. 따라서 단순하게 문장을 나누어서 입력할 경우 번역 오류는 현저하게 줄어듭니다. 원천 문장을(출발어) 잘게 나누는 훈련을 꼭 해보시기 바랍니다.
대부분의 언어에서 적절한 주어 설정은 필수 조건입니다. 특히 영어나 중국어에서 그렇지요. 한국어는 주어가 생략되는 경우가 많기 때문에 번역기를 돌릴 때 주어가 입력되지 않을 경우 AI번역이 문장을 임의로 해석해서 잘못된 주어를 설정하는 경우가 발생합니다. 때로는 능동형인지 피동형인지 AI가 헷갈려 할 때도 많이 발생하지요. 주어가 생략되었거나, 주어 파악이 어려운 경우에는 번역하는 사람이 주어를 찾아 문장을 다시 구성해야 합니다.
다의어는 하나의 단어가 두 가지 이상의 뜻을 가진 단어를 의미합니다. 예를 들면 ㅇㅇㅇㅇ
동음이의어는 단어의 발음은 같지만 그 의미가 서로 관련성 없이 다른 것을 의미합니다. 다의어나 동음이의어를 AI 번역이 이해하지 못하는 경우가 많은데, 이는 맥락과 관련이 있기 때문입니다. 과거와 비교해서 AI번역은 괄목할 만한 발전을 이루었고, 특히 맥락을 이해하는 능력이 성장했습니다. 그럼에도 다의어/동음이의어로 인해 문제가 발생한다면 보충해서 원문을 다시 쓰거나 보편적인 어휘를 사용하는 것도 오류를 줄이는데 도움이 됩니다.
문장 내에서 의미 해석이 어려운 경우는 주로 관용어나 구어체 표현, 조사의 사용, 신조어, 긍정적인 단어나 부정적인 단어를 사용해서 뉘앙스를 표현하려고 할 때 발생합니다. 이런 부분들은 AI 번역이 맥락을 이해하지 못하는 경우와 비슷하게 이해가 가능합니다. 맥락을 파악하지 못하도록 방해할 때 관용어나 구어체가 꼭 필요하게 사용되고 있는지, 조사는 적절한지, 신조어나 편향적인 단어를 사용해서 맥락이 훼손되지는 않는지를 점검해보면 좋습니다. 이중에서 적절한 주어를 설정하지 않아서 오류가 생기는 경우가 가장 빈번합니다.
번역기를 잘 활용하는 법은 결국 모국어를 잘하는 법과 일맥상통한다고 볼 수 있어요.
장황한 부분을 생략하거나 짧은(=단순한) 문장으로 표현하기.
주어를 설정해주기.
누가 봐도(=컴퓨터가) 이해하기 쉬운 표현 사용하기.
지시어 대신 구체적인 지시 대상 넣기.
보편적인 어휘 사용하기
등의 대안 책을 사용한다면 좀 더 나은 AI번역의 결과를 기대할 수 있을 것입니다.
저희 지콘스튜디오에서 나날이 고도화하고 있는 하이브리드 AI번역은 사용할수록 품질이 높아집니다. 사용자가 한국어 문체(어미, 띄어쓰기, 문어체)만 바꿔도 맥락을 이해하는 능력이 압도적으로 높아지는데요. 기업별 맞춤형 번역기를 제공하고 있으니, 관련해서 상담이 필요하신 분은 아래 메일로 연락주시면 좋겠습니다.
여러분의 스마트한 번역생활을 응원하며, 이상 지콘스튜디오였습니다.
다음 포스팅에서 만나요~ Wel-con!
+++