machine translation graphic

기계번역: 젠더 분석

도전과제

기계번역은 글로벌화되는 세계에서 더욱 중요해지고 있다. 현재 시중에 나온 번역기의 오역률은 아직 높지만 기계번역의 정확도는 날이 갈수록 점진적으로 개선되고 있다. 하지만 기존 기계 번역 시스템의 오역은 비점진적인 해결법을 필요로 하는 기초적인 기술의 문제에서 비롯된다. 이런 기술적 문제 중 하나는 젠더와 연관이 있다. 구글 번역기나 시스트란(Systran)과 같은 최첨단 기계 번역기는 원문에서 사용된 단어가 명확하게 여성을 뜻했음에도 불구하고 대부분 he나 him과 같은 남성 대명사로 번역한다(Minkov et al., 2007). 따라서 기계 번역기의 번역본은 신뢰도가 떨어지고 젠더 편견이 지속되는 것이다..

성•젠더 분석 방법: 젠더 분석

기존 번역기는 원본에서 언급된 사람의 젠더를 구별하지 않은 채 여러 이중언어 텍스트 중 원본과 가장 가까운 의미를 가진 번역어 구절을 모두 찾는다. 그 중에서 사용 빈도수 등 다양한 요소를 바탕으로 번역본 구절 하나를 찾아 원본과 매칭시키는 방법으로 번역을 한다. 따라서 인터넷에서 많이 사용되는 남성 대명사로 번역을 하게 되는 것이다. 기존 번역기를 개발하는 데 사용된 텍스트 자료에는 남성 대명사가 남용되어있다. 따라서 번역기가 번역한 내용에도 남성 대명사가 많은 것이다. 2012년 7월 젠더 혁신 프로젝트에서 이 문제에 대한 해결 방안을 논의하기 위해 워크숍을 개최했다. 기존 텍스트 자료에서 남성 대명사와 여성 대명사의 비율을 맞춘다고 해도 문제를 해결할 수 없었다. 번역기가 젠더를 구별하지 않고 무작위로 젠더와 대명사를 매칭시켜 원문에 있는 사람의 젠더와 다른 대명사를 사용해 번역할 수 있기 때문이다. 따라서 원문에서 언급된 사람의 젠더를 구분할 수 있는 알고리즘을 개발해, 이 알고리즘으로 젠더를 파악한 후 번역본이 생산될 수 있도록 하는 것이 중요하다. 이런 알고리즘의 개발을 통해 자동적으로 남성 대명사로 번역하는 현상을 피할 수 있으며 번역 자체의 질도 높일 수 있다.

젠더 혁신:

    1. 번역기가 자동적으로 남성 대명사를 사용하는 현상 연구

    2. 본문에서 언급된 사람의 젠더를 구별할 수 있도록 번역 알고리즘 개선 (연구 진행 중)

전체 사례연구 보기
도전 과제
젠더 혁신 1: 기계 번역 시스템 상에서의 자동 남성 대명사 사용 현상 연구
연구 방법: 젠더 분석
젠더 혁신 2: 본문에서 언급된 사람의 젠더를 구별해 번역 알고리즘 개선
연구 방법: 연구 우선순위 및 결과 재검토
결론
 

도전 과제

기계 번역은 자연 언어 처리(NLP: Natural Language Processing)에서 중요한 분야이자 글로벌화되는 세계에서 중요하게 사용되고 있는 기술이다. 아직 오역률은 높지만 점진적인 개선을 통해 기계 번역 시스템의 정확도는 높아지고 있다. 하지만 기존 기계 번역 시스템의 오역은 비점진적인 접근법을 필요로 하는 기초 기술적인 문제에서 비롯된다. 이런 기술적 문제 중 하나는 젠더와 연관이 있다. 구글 번역기나 시스트란(Systran)과 같은 최첨단 기계 번역기는 원문에서 사용된 단어가 명확하게 여성을 뜻했음에도 불구하고 대부분 he나 him과 같은 남성 대명사를 남용한다(Minkov et al., 2007). 따라서 번역본의 신뢰도가 떨어지고 젠더 편견을 영속화시키는 번역본이 탄생하는 것이다.

영어를 다른 언어로 번역할 때나 다른 언어를 영어로 번역할 때 이런 번역상 오류가 발생한다. 특히 영어와 같이 성별 표시에 민감하지 않은 언어를 인도유럽 국가 언어와 같이 성별 표시에 민감한 언어로 번역할 때 문제가 더 흔하게 발생한다(Banea et al., 2008). 일례로 "a defendant was sentenced" (한국어: •피고는 형을 선고 받았다•)와 같은 영어 문장에서는 •defendant•(법정 용어로 •피고•)가 여성인지 남성인지 구별하기 어렵다. 하지만 이 문장을 독어로 번역할 때는 •defendant•가 여성인지 남성인지를 구별하는 정확한 단어를 사용해 번역해야 한다(Frank et al., 2004).

영어: 독어:
"A defendant was sentenced.""Ein Angeklagter wurde verurteilt."
(´defendant´의 성이 확실하게 구별되어있지 않다.)(구글 번역기로 번역된 이 독어 문장에서는 ´defendant´가 남성으로 번역되어 있다. 구글 번역기는 이런 경우 자동적으로 남성 대명사를 쓰도록 설계되어 있다.

or

"Eine Angeklagte wurde verurteilt."
(이 문장에서 ´defendant´는 여성으로 번역되어 있다.)

인간 번역사는 문서에서 앞 문장과 뒷문장을 읽고 문맥을 파악해 ´defendant´가 여성인지 남성인지를 파악할 수 있다. 하지만 기존의 기계 번역 시스템은 사람과는 다르게 앞 문장과 뒷문장으로 문맥을 파악할 수 없다. 그 결과 코퍼스(말뭉치)에서 ´ein Angeklagter wurde´과 ´eine Angeklagte wurde´과 똑같은 번역 문장에서 더 자주 사용되는 대명사를 사용한다. 즉 단순히 단어의 빈도수에 따라 번역을 하는 것이다. (아래 그림 참고)

image of google translation page
이런 문제는 다른 언어를 영어로 번역할 때도 일어난다. 일례로 스페인어 대명사 ´su´는 영어로 남성 소유대명사인 ´his´나 여성 소유대명사인 ´her´로 번역될 수 있어 번역상 문제가 생길 수 있다. 이런 문제는 대명사가 많이 생략되는 스페인어, 중국어, 일본어와 같은 언어를 영어와 같이 대명사가 생략되지 않는 언어로 번역할 때 흔하게 나타나는 문제이다.

젠더 혁신 1: 기계 번역 시스템 상에서의 자동 남성 대명사 사용 현상 연구

기계 번역 소프트웨어로 스페인어를 영어로 번역하면 여러 젠더 관련 문제가 생긴다. 그 이유 중 하나는 스페인어는 대명사 생략이 가능한 언어이기 때문이다. 따라서 스페인어를 영어로 번역할 때 여성 대명사와 남성 대명사 중 어떤 대명사를 사용해야 하는 결정하는 것이 어려워진다. 2011년 3월 론다 슈빙어 박사는 스페인 언론사와 인터뷰를 진행했다. 스페인어로 된 이 인터뷰를 번역기를 사용해 영어로 번역하면 상기 언급된 문제가 나타난다. (아래 표 참고)

문맥 흐름 상 제대로 된 젠더에 대한 힌트가 있음에도 불구하고 번역기는 잘못된 대명사를 사용한다. 문맥 흐름 상 여성 대명사가 사용되어야 하는 상황은 아래와 같다.

  • ´론다´는 영어에서 여성의 이름이고 온라인상으로도 여성 이름으로 나와있다.
  • 스페인어로 된 원문에는 스페인어로 여성 ´교수´를 뜻하는 ´professor´라는 단어와 ´여자´를 뜻하는 ´muter´과 같은 단어가 있다. 이런 단어 사용으로 유추해보면 ´론다´가 여성임을 알 수 있다.
번역사는 문자 그대로 ‘doesn’t say anything to him/her’(한국어: ‘그/그녀에게 아무것도 말하지 않았다’)를 뜻하는 ‘no le dice nada’라는 구절에서 ‘him/her’을 뜻하는 스페인 대명사 ‘le’가 문맥상 여성을 뜻하는 것임을 알 수 있다.

  •      "no le dice nada."
  • that literally reads:
  •      "doesn't say anything to him/her."
  • the Spanish word "le" ("him/her") must mean "her," and not "him."
하지만 현재 사용되고 있는 기계 번역 시스템은 이런 문맥상의 힌트를 이해하지 못한다.

성•젠더 분석 방법: 젠더 분석

현 기계 번역 시스템은 독자가 성별을 구분하기 위해 사용하는 문맥상 힌트를 번역에 사용하기 위해 해결되어야 하는 3가지 문제가 아직 해결되지 않았기 때문에 올바른 인칭 대명사를 사용하지 못한다.

  • 1. 번역사는 원문과 의미가 같은 번역본이 좋은 번역본이란 것을 알고 있다.
  • 2. 독자는 글을 읽을 때 사람에 대해 얘기를 하고 있는지, 그리고 언급된 사람의 성별 등 그 사람에 대한 정보를 인식할 수 있다. 명백하게 적혀져 있지 않아도 유추할 수 있는 것이다. 대명사가 자주 사용되지 않는 언어에서 동사가 사용이 되면 영어와 같이 대명사가 필요한 언어로 번역할 때 대명사를 보고 동사를 유추해 번역해야 한다는 점을 번역사는 안다. 일례로 번역사는 문자 그대로 "´I like knowledge,´ said"(한국어: "´지식이 좋다,´ 말했다")를 뜻하는 "Me encanta el conocimiento,´ dice."라는 구절이 사람이 한 말인 것을 알기 때문에 "´I like knowledge,´ she said."(한국어: "´난 지식이 좋아요."라고 그녀가 말했다.)라고 번역해야 한다는 것을 안다.
    •      "´Me encanta el conocimiento,´ dice."
    • that literally reads:
    •      "´I like knowledge,´ said."
    • is referring to a person who said something, and hence should be translated
    •      "´I like knowledge,´ she said."
  • 3. 독자는 명사와 대명사가 문맥상 어떻게 사용되는 지를 보고 정보를 유추해낸다. 상기 그림에 있는 예시에서 ´론다´가 첫 문장에 인터뷰의 대상으로 언급이 되어있다. 이 문장을 읽은 번역사는 ´her/his work´(한국어: 그녀/그의 일)´를 뜻하는 스페인어 구절 ´suss trabajos´에서 ´work´가 론다의 일을 뜻하기 때문에 번역할 때 론다와 같은 성별의 대명사가 쓰여야 한다는 것을 알 수 있다. 따라서 ´그´가 아닌 ´그녀´로 번역해야 한다는 것도 알 수 있다. 즉 번역사가 글을 읽을 때 한 문장에서 언급된 사람이 다른 사람이 아니라 문맥의 흐름에 따라 전에 언급된 같은 사람임을 알 수 있으며 그 문맥의 흐름이 논리적이라는 것을 알 수 있다. 번역사는 피번역어의 동일지시성을 인지하고 원문의 의미에 맞게 번역할 수 있다.
현 기계 번역 시스템은 다음 기능이 부족하다.
  • 1. 현 기계 번역 시스템은 번역 시 원문과 의미와 같은 번역어를 선택해 번역하는 것이 아니라 사람이 번역을 할 때 사용할 가능성이 높은 단어나 구절을 선택해 번역한다. 비슷할 지 모르지만 똑같은 요건을 가지고 있다고는 할 수 없다.
  • 2. 현 기계 번역 시스템은 문장에서 여성 혹은 남성을 뜻하고 있다는 점을 인지하지 못한다. 따라서 번역본에 젠더가 전혀 표현되지 못한다.
  • 3. 현 기계 번역 시스템은 동일지시성을 인식하지 못하며 문맥 이해도 매우 한정적이다. 한 번에 한 문장만 번역을 하기 때문에 전 문장에서 도출된 정보를 사용해 번역을 할 수 없다. 상기 그림에서 나온 ‘론다’가 바로 그 예라고 할 수 있다.
이제는 번역기의 이런 한계를 넘을 수 있다고 생각한다. (젠더혁신 2 참고) 기존 번역기는 번역 훈련을 받을 때 사용했던 코퍼스(말뭉치)에 자주 사용된 대명사를 자동적으로 사용한다. 이런 자동 번역화(디폴트 기능)기능은 강력할 수 있다. 아래 그림 참고

Google translate masculine for English they
기계 번역 시스템에 번역 훈련을 진행할 때 두 종류의 코퍼스를 사용한다. 하나는 ‘평행선 코퍼스’로 한 언어로 된 문단과 그 옆에 제2언어로 번역되어 있는 문단이 있는 코퍼스이다. 다른 하나는 한 언어로만 된 코퍼스인데, 번역어의 문법을 본 따기 위해 사용된다. 두 코퍼스를 사용 해 기계 번역기 번역 훈련을 진행하면 성별이 구분된 대명사와 관련된 오역이 발생할 수 있다. 영어로 된 긴 텍스트인 구글 북스 코퍼스에 대한 연구에 따르면 영어에서는 남성 대명사가 여성 대명사보다 더 많이 사용되며 시간이 흐르면서 남성 대명사 사용률 대비 여성 대명사 사용률이 줄긴 했지만 아직도 남성 대명사가 더 많이 사용된다고 밝혀졌다. (아래 차트 참고) 이런 사용률 격차로 인해 상기 언급된 인터뷰에서 남성 대명사가 사용되었을 가능성이 높다. ratio of Masculine to Feminine Pronouns in U.S. Books, 1900 to 2008

오늘날 많은 조직에서는 언어의 성차별을 피한 남녀 포괄적 언어를 선호하거나 요구한다(Rose, 2010). 영어에서 성별이 알려지지 않은 사람을 지칭할 때 ‘그녀/그’를 사용한다. 대개 이런 문제를 해결하기 위해 문장에 사용된 명사를 복수형으로 바꿔 복수형 대명사를 사용할 수 있다. (성•젠더 분석 방법 참고: 사용 언어 및 시각적 표현 재검토) 따라서 일반적으로 남성 대명사를 사용하는 번역 알고리즘은 현대 언어 사용과 맞지 않다. 현재 사용되는 언어적 관습을 고려하지 않은 기계 번역 시스템은 대명사를 잘못 쓴 번역본이 코퍼스에 추가되면서 더 이상 사용되지 않는 언어 사용을 오히려 부축일 수 있다.

 

젠더 혁신 2: 본문에서 언급된 사람의 젠더를 구별해 번역 알고리즘 개선

원문에서 지칭된 사람의 성별을 구별해 올바른 성별 대명사로 번역할 수 있는 기계 번역 알고리즘이 개발되어야 한다. 언어의 동일지시성을 바탕으로 개발된 기계 번역 알고리즘은 원문에서 사용된 이름, 명사 구절, 대명사가 같은 인물을 지칭하는지 파악하고 번역할 수 있다. 이 과정은 다음 세 단계로 나눠져 진행된다.

    1. 원문에 사용된 모든 이름, 대명사, 명사를 찾는다.

    2. 상기 언급된 단어의 유생성(인간 vs. 무생물), 성별(여성 vs. 남성) 및 수(단수 vs. 복수)를 구분한다.

    3. 전문 구조, 각 문장의 문법 구조, 유생성, 성별, 수 등의 정보에 의지하는 확률적 알고리즘을 사용해 동일의미를 가질 가능성이 높은 단어끼리 모은다.

상기 단계는 이름 데이터베이스를 포함한 수준 높은 확률 정보를 사용해 번역하거나 원문에 사용된 이름이나 보통 명사에 가장 원문의 의미와 가까운 성별을 지정해 번역한다(Bergsma et al., 2005, 2009; U.S. Social Security Administration 2012; Vogel, 2012). 또는 원문에서 모든 이름, 이름을 지칭하는 성별 대명사 및 유생성 여부, 동일 지시성 연관을 가진 단어를 표시한 데이터세트를 사용해 번역하기도 한다(Hovy et al., 2006; Pradhan et al., 2011). 번역된 대명사의 질을 측정하는 표준 알고리즘과(Byron, 2001) 동일 지시성 테스트 시스템도 있다(Pradhan et al., 2011).

동일 지시성 테스트는 영어뿐만 아니라 피번역어, 번역어에 모두 사용되어야 한다. 영어와 중국어, 아랍어와 같은 일부 언어를 위한 좋은 동일 지시성 확인 알고리즘은 개발되어 있다. 이런 언어의 동일 지시성 확인 알고리즘의 결과는 아직 훌륭한 정도는 아니지만(Fernandes et al., 2012; Chen et al., 2012; Lee et al., 2013) 기존에 사용되는 기계 번역 알고리즘의 대명사 사용 기능을 개선하기에는 충분하다.

이와 함께 중국어, 스페인어와 같이 대명사 사용이 꼭 필요하지 않은 언어에서 영어와 같이 대명사가 문장에 꼭 필요한 언어로 번역할 때 번역기가 자동적으로 대명사가 필요함을 인지할 수 있는 기능이 기계 번역 시스템에 포함되어야 한다. ‘무형 대용사 구분’이라 불리는 이 과정에서 이 ‘무형 대용사’를 구분하기 위한 성공적인 방법을 컴퓨터 문헌에서는 제시하기 시작했다(Zhao et al., 2007; Kong et al., 2010; Iida et al., 2011). 이제 다음 단계는 이 무형 대용사 구분 알고리즘을 동일 지시어 구분이 가능한 기계 번역 시스템에 추가하는 것이다.

이러한 알고리즘에는 또 앞 문장과 뒷문장의 정보를 바탕으로 번역할 수 있는 기능도 필요하다. 최근 개발된 ‘문서 단위의 언어 모델링 및 번역’은 여러 문장에서 제공하는 정보를 고려해 언어적 문맥을 이해하는데 도움이 될 수 있다(Momtazi et al., 2010). 최근에 들어서야 새로운 ‘문서 단위의 해석’ 알고리즘을 통해 장거리 정보를 기계 번역 알고리즘에 포함할 수 있게 되었다(Hardmeier et al., 2012).

마지막으로 새로운 알고리즘은 한 문장에서 얻은 정보를 포함하고, 최소한 주체, 동일 지시성 단어 및 일관성을 제대로 인식해 번역할 수 있도록 최적화된 번역 방식 자체를 바꿔야 한다.

이런 번역 알고리즘 개발에 있어 추가적인 도전 과제가 생길 수 있고 젠더 혁신적 해결책이 실패해 다른 방법을 필요로 할 수 있다. 하지만 중요하게 깨달은 사실은 기계 번역에서 젠더 편견을 없애기 위해서는 원문에서 사용된 사람들의 성별을 명백하게 구분하고 동일 지시성 정보를 사용해 번역을 하는 것이다.

성•젠더 분석 방법: 연구 우선순위 및 결과 재검토

현재 번역 알고리즘은 동일 지시성과 일관성 요소를 성공적으로 사용하지 못해 사람에 대한 내용이 많은 소설과 같은 장르를 제대로 번역하지 못하고 있다. 하지만 상기 언급된 번역 알고리즘을 통해 이런 장르에서도 기계 번역본 질을 높일 수 있다(Voigt et al., 2012).

 

결론

기존 기계 번역 시스템에 상기 언급된 연구 방법을 접목시키는 것은 어려우며, 새로운 번역 알고리즘, 지식과 도구를 필요로 할 것이다. 원문에서 사람 지칭 단어를 이해하고 성별과 같이 문맥에서 제공하는 정보를 사용해 번역을 할 수 있는 기계 번역 시스템은 번역본의 가독성과 질을 높일 수 있다.



몇 년 전 론다 쉬빙어 박사는 스페인 마드리드에서 인터뷰를 한 적이 있었다. 인터뷰가 끝나고 미국으로 돌아온 쉬빙어 박사는 인터뷰 기사를 구글 번역기(Google Translate)를 사용해 영어로 번역한 후, 구글 번역본을 보고 매우 놀랐다고 한다. 쉬빙어 박사가 여성임에도 불구하고 계속 남성 대명사인 ‘he’로 지칭되었기 때문이다. 구글 번역기와 유럽에서 개발된 기계 번역기 시스트란(Systran)은 자동적으로 남성 대명사를 사용한다.

구글과 같이 최첨단 기술을 개발하는 회사가 어떻게 저런 오류를 범할 수 있었을까?

구글 번역기가 자동적으로 남성 대명사를 사용해 번역하는 이유는 인터넷에서 ‘he said’가 ‘she said’ 보다 더 자주 사용되기 때문이다. 여기서 흥미로운 사실이 하나 밝혀진다. (아래 그래프 참고)

ratio of Masculine to Feminine Pronouns in U.S. Books, 1900 to 2008

구글 서비스인 엔그램(NGram)을 통해 남성 대명사 사용률 대비 여성 대명사 사용률이 1960년대 4:1에서 2000년까지 2:1로 급격하게 줄었다는 사실을 알 수 있다. 이런 급격한 변화는 여성 움직임과 여성 과학기술인의 수를 늘리기 위한 정부의 보조금 지급과 맞물린다. 이런 긍정적인 변화가 있었음에도 불구하고 구글은 잘못된 알고리즘 사용으로 지난 40년간 있었던 언어의 혁명을 의도치 않게 뒤집어 놓은 것이다. 이것이 바로 무의식적으로 젠더에 대해 사람들이 갖게 되는 편견의 예시이다.

젠더 혁신:

2012년 7월 젠더 혁신 프로젝트에서 이 문제에 대한 해결 방안을 논의하기 위해 스탠퍼드 대학과 구글의 자연 언어 처리 전문가 두 명을 초대해 워크숍을 개최했다. 20분간 강연을 듣던 전문가들은 이 문제를 해결할 수 있다고 말했다. 이 단순한 문제 하나를 해결함으로 인해 기계번역에 혁신을 가져올 수 있게 된 것이다. 물론 더 근본적인 해결책은 젠더 분석을 공학 교육과정에 접목시켜 향후 구글에 입사하게 될 엔지니어가 비슷한 오류를 범하지 않도록 하는 것이다.

본 웹사이트는 Gendered Innovations(http://genderedinnovations.stanford.edu)의 책임자(Londa Schiebinger) 허가를 받아 제작 되었습니다.
  TermsSite Map