파파고, 유감(해결됨. Endgültig.)

tl;dr:

  • 웹 서비스에 활용할 목적으로 머신러닝에 공개 데이터를 집어넣는다면 피해자가 발생하지 않도록 필터링은 잘 하자. 특히 이메일 주소는 크롤링을 방지하려고 다양한 형태로 변형해서 게시하는데 이걸 조심해야 한다.
  • KISA의 해석에 따르면 대한민국 개인정보보호법은 내가 누군가에게 개인정보를 직접 제공했을 경우에만 적용되는 법률이며, 다른 사람이 내가 공개한 정보를 잘못 사용한 경우를 다루지는 않는다.
  • 민사소송을 진행할 수 없거나 하기 어렵다면 개인정보분쟁조정위원회가 도움이 될 수 있다.

사건의 발단은 올해 1월, 이 때부터 조금씩 이상한 이메일을 받기 시작했다. 분명 나는 독일 아마존과는 관계가 없는 사람인데 왜 나한테 독일 아마존의 계정 활성화 관련 이메일이 오는가라는 의문에서 시작했다. 그 때는 무슨 일이 일어났는지 전혀 몰랐고 이것도 그냥 스팸이겠거니 싶어서 받은 메일을 그냥 무시해 버렸다. 멕시코의 한 은행에서 계좌 거래내역을 보내거나, 러시아에서 영수증이 날아온다거나, Fitbit이나 PSN 계정이 만들어지기도 하는 등 내 이메일 주소에 희한한 일이 한번두번 일어난 적도 아니었기도 하고. 이 사건을 해결하면서 내친김에 이것들도 다 해결해 버렸다.

  • PSN 계정 사건: 2016년 당초에 계정이 만들어졌던 곳은 브라질로 추정되지만(메일이 포르투갈어로 날아옴) 나는 브라질에 간 적도 없었다. 일단 말이 통하는 SIEK에 문의를 했으나 해결된 건 별로 없었고 SIE 트위터 채널로 문의해 봐도 독일 전화번호만 알려 줄 뿐이었다. 그러다가 GDPR 철퇴라는 것을 알게 되었고 유럽 지역 SCEE의 DPO에게 이메일을 보내서(dpo at scee dot net) 계정을 삭제시켰다. 여담이지만 소니의 PSN 계정 관리가 지역별로 나뉘어 있는 게 참 뭣같다는 사실을 이 과정에서 알게 되었다.
  • Fitbit 계정 사건: 이메일 주소를 인증받지 않은 것 같았기에 내 이메일 주소로 암호 찾기를 누른 다음 계정 탈퇴를 살포시 눌러 줬다. 내 이메일 주소 자체가 털렸다는 증거는 찾을 수 없었다.
  • 러시아 영수증 사건: Yandex에 처음에 문의를 했는데, 돌아온 답장은 영수증을 보낸 개별 업체에 문의해야 한다는 것이었다. 그래서 업체 이메일 주소를 알아낸 다음 이메일 주소를 지웠다는 답을 얻었다. 내 러시아어 실력이 좀 심각하게 비대칭스러워서 메일 작성에는 구글 번역기의 도움을 얻었으나 적어도 업체에서 내 뜻을 이해한 것 같았다.
  • 멕시코 은행 사건: 문제의 은행 트위터 채널로도 별 소용이 없었다. 마지막으로 이메일을 보낸 사람에게 나 멕시코에 가 본 적도 없다고 이메일을 보낸 이후에는 지금까지 메일이 들어오지 않고 있다.
올해 1월부터 받기 시작한 이상한 이메일
올해 1월부터 받기 시작한 이상한 이메일

이 사건을 잊고 있었을 때쯤인 올해 3월 또 누군가가 독일 아마존 주문 관련 이메일을 보냈다. 이번에도 그냥 무시하려다가 지난 1월에 받은 이메일이 떠올라서, 무시하려던 걸 포기하고 답장을 써 봤다. 보낸 사람 이름은 한국이었지만 메일 내용이 독일어로 되어 있길래, 대강 독일어로 “이메일 주소 어디서 확인하셨나요? 저는 아마존에서 일하는 사람이 아닙니다”라고 메일을 써서 보냈다. 그리고 거기에서 대화가 끊김. 게다가 3월에는 무슨 마가 끼이기라도 했는지 독일 아마존 주문 메일 두 통 말고도 독일 통신사인 O2 문의랍시고 메일을 보내기도 했다. 독일어로 된 이메일에는 독일어로 답장해 줬고, 영어로 된 이메일에는 영어로 답장해 줬다. 이쯤에서는 그냥 스팸이겠거니 하는 생각보다는 대체 어디에서 이상한 일이 일어난 건지가 더 궁금해져서 이메일을 더 보낸 사람에게 “peremen at gmail.com” 주소가 어디에 나와 있는지 스크린샷을 찍어서 보내 달라고 했지만 답장은 돌아오지 않았다.

그리고 올해 4월 이번에는 또 독일 보다폰이다. 이번에는 보낸 사람 이름이 한국이라서 아예 한국어로 답장을 보냈다. “저는 해당 통신사와 아무 관계가 없는 사람입니다.” 중간에 뭔가 잘못된 것이 있는 것 같긴 한데, 그 사람도 어디에 이메일 주소가 나와 있는가 알려달라는 질문에는 결국 답하지 않았다. 5월에도 또 독일 아마존 계정 정지 관련된 이메일을 받았는데, 이번에는 영어로 답장했지만 좀 강하게 나가기로 했다. “Where did you got my e-mail address? … I am very annoyed this recently. …” 이것도 결국 답장을 받지 못했다. 6월에도 또 비슷한 뭔가를 얻었길래 이번에도 메일 주소를 어디서 알게 되었는가에 대한 질문에 대한 답장은 받지 못했다.

이렇게 8개월이 지난 후인 8월 초에 대체 왜 이런 메일이 오는가 정체를 알게 되었다. 이번에는 내 이메일 주소가 나와 있는 URL을 알려 달라고 한 대신 “이 이메일 주소로 연락하라고 나와 있는 곳을 캡처해서 보내 달라”라고 부탁해 봤다. 다행히도 이번에 보낸 사람은 아마존에서 받았다는 이메일을 보내 주기는 했지만 본문 어디에도 내 이메일 주소는 나와 있지 않았다. 혹시 Reply-To 헤더가 잘못되어 있는가 싶어서 이메일 원본을 달라고 요청했으나, 결국 그걸 받지는 못하고 파파고 번역 오류라는 답을 얻었다. 파파고. 대체 뭘 집어넣었길래 내 이메일을 이상하게 해석한 걸까? 그래서 직접 해 보기로 했다.

파파고에서 amazon.de 주소를 번역했을 때 이상하게 찍혔던 결과(현재는 수정됨)
파파고에서 amazon.de 주소를 번역했을 때 이상하게 찍혔던 결과(현재는 수정됨)
파파고에서 amazon.de 주소를 번역했을 때 수정된 결과
파파고에서 amazon.de 주소를 번역했을 때 수정된 결과

일단 문제의 독일어 이메일을 집어넣었는데 왜 https://www.amazon.de 한국어 번역 결과에 내 이메일 주소가 나오는 걸까? 그래서 그 부분 주변 문장만 남기고 지워 봤더니 파파고 번역기의 독일어 – 한국어 번역 결과가 문제가 있었다는 걸 알게 되었다. (확인해 보기, 2020-08-12 기준 archive.is 결과) 파파고 때문에 지난 8개월 동안 이상한 이메일을 받았다는 걸 알게 되고 나니까 허탈하기도 하고 화가 나기도 했다.

그래서 이 사건을 알게 된 8월 12일 당일에 지인들을 통해서 네이버 사내에 직접 문의를 넣었고, 공식적인 의견을 듣기 위해서 네이버 고객센터에 오역 신고를 병행했다. 다행히도 휴대폰 인증과 같은 멍청한 것들을 할 필요 없이 오역을 바로 집어넣을 수는 있었다. 일단 여기서 응답이 어떻게 돌아오는지 지켜보고 다음 행동을 결정하기로 했다. 네이버에서는 이 시점에서 문제를 인지하고 기술적인 준비를 하기는 하고 있었다. 한편 오역 신고에 대한 답장은 8월 13일에 돌아왔으나, 그 내용은 나를 열받게 하기에 충분했다. 아래는 당시 받은 이메일 내용이다.

독일어->한국어 번역에서 일부 URL과 같은 특수 입력에 대한 번역 처리가 미비하여 URL이 임의의 텍스트로 잘못 변환되면서 발생한 문제입니다.

​Papago에 적용된 인공신경망 방식의 번역엔진은 온라인상에 수집된 학습 데이터를 기반으로 번역하고 있는데요, 반영된 데이터의 영향으로 오류가 발생할 수 있습니다.

해당 표현은 번역 엔진의 업데이트 및 다양한 예문 학습을 통해 최대한 정확하게 번역할 수 있도록 최선을 다하겠습니다.

다만, 번역 엔진이 해당 표현 및 유사 패턴의 표현을 학습하고 점검하기까지 약 1~2개월 이상 소요될 수 있는 점 양해해 주시길 부탁드립니다.

감사합니다.

네이버에서 받은 답장 내용

사실 여기에서 처리를 빠르게 해 줄 수 있다고 답장을 했으면 적당히 끝낼 생각이었는데, 무슨 독일 관청 일처리도 아니고 1-2개월 이상 걸릴 수 있다는 말이 트리거로 작용했다. 오역 신고에서는 내가 보상을 받는 것 때문에 이러는 게 아니라는 의도로 일부러 내가 관련 없는 이메일을 받고 있다는 사실을 언급하지는 않았는데, 이 시점에서는 제대로 열을 받아서 좀 더 빠른 처리를 할 필요가 있다고 생각했다. 아직은 유럽에 거주 중이기 때문이고 사건 시작 시점에서 나는 유럽에 있었기 때문에 이걸로 GDPR의 철퇴를 먹여야 하나? 아니면 한국 기관의 도움을 빌려야 하나? 이 고민을 하다가 네이버의 첫 답장을 받은 8월 13일에 한국인터넷진흥원 개인정보침해신고센터개인정보분쟁조정위원회에 민원을 넣었다. 이 사건을 진행하면서 개인정보분쟁조정위원회를 처음 알게 되었고, 이 건에 대해서는 KISA보다 더 많은 도움이 되었다.

나는 KISA의 연구 부서 쪽 사람들은 연구 관계로 만난 적도 있었고 보안 컨퍼런스 같은 곳에서 드러나는 성과로 보았을 때 해야 할 일을 제대로 하는 사람들이라고 보지만, 대민 업무를 하는 부서나 기타 다른 정책을 담당하는 부서에는 좋은 기억을 갖고 있는 게 없었다. 이 사건으로 KISA에서 받은 답장도 내 선입견을 강화시키는 데 아주 약간 도움이 되긴 했다. 민원 제기 후 8월 24일에 받은 답장 내용을 요약하자면 한국 개인정보보호법은 내가 네이버 파파고에 개인정보를 제공한 관계가 성립했을 때만을 다루는 법률이고, 제3자가 직접 수집한 나에 대한 정보가 잘못 노출되었을 때에는 개인정보보호법의 관할이 아니라는 뜻이다. 뭐 법의 뜻이 그렇다는 게 이해가 가긴 하지만.

먼저, 우리 기관의 소관법령인 『개인정보 보호법』은 이 법에서 규정된 업무를 목적으로 개인정보 파일을 운용하기 위하여 스스로 또는 다른 사람을 통하여 개인정보를 처리하는 ‘개인정보처리자’를 적용 대상으로 하고 있으며, 개인정보처리자와 정보주체의 개인정보 처리에 관한 사항을 규정하고 있는 법률입니다.

기재하신 내용을 고려할 때 귀하께서 피신고업체의 서비스를 제공받기 위해 개인정보를 제공한 것이 아닌, 피신고업체의 오류로 인해 귀하의 이메일 주소가 노출되고 있는 것으로 보이며, 이에 귀하와 피신고업체의 관계를 위 내용에 따른 정보주체와 개인정보처리자의 관계로 보기는 어려워 피신고업체에게 본 법률을 적용하여 책임을 묻기는 어려울 것으로 보입니다.

따라서 피신고업체에 오류사항에 대한 처리 요청을 하여 보시기 바라며, 만약, 협의가 어려우신 경우에는 민/형사적인 방안을 강구하셔야 할 것으로 이에 대한 소송 가능성 여부 및 관련 절차에 대해서는 대한법률구조공단(http://www.klac.or.kr, ☎132)을 통하여 자세히 문의해 보실 수 있습니다.

한국인터넷진흥원 ☎118 상담센터

개인정보분쟁조정위원회에서는 상담 사례집을 홈페이지에 공개해 두고 있었고, 여기에는 온갖 시시콜콜한 사례가 다 있었기에 확신을 가지고 문의를 하는 데 도움이 되었다. 가령 CCTV 열람대장을 제대로 통제하지 못했다거나, 휴대폰 번호 한 자리를 틀려서 관계 없는 문자를 계속 받는다는 등. 위원회의 설립 목적 자체가 이러한 상황에서 민사소송으로 가지 않고 합의를 유도하는 것이라고 보았기 때문에 망설이지 않고 문의를 넣었다. 공인인증서도 만료된 지 너무나도 오래 되었고 새로운 공인인증서 발급 때문에 여기 한국 대사관을 찾아간다고 해도 한국 은행용 OTP도 방전된 지 오래 되었던 탓에 민사소송을 여기서 나홀로 진행하는 것도 좀 무리가 있기도 했다.

개인정보분쟁조정위원회 쪽은 8월 14일에 접수되었다는 연락을 받고 한동안 진행이 안 되는 것 같았고, 이와 동시에 파파고가 언제 번역을 갱신할지 매일 확인하고 있었다. 개인정보보호법 44조에 의하면 최대 60일 이내에 심사를 해야 한다고 되어 있으니까 일단 이 조항을 믿어 보기로 했다. 독일 와서 배운 것 중 하나가 서류 심사 기한이 있으면 그 기한을 모두 기다려 보라는 것도 있기에 더더욱 오래 기다렸다. 그러다가 8월 21일에 파파고 번역을 확인해 본 결과 URL을 입력했을 때 제대로 번역이 안 되는 건 여전했지만 내 이메일 주소는 더 이상 표시되지 않는다는 것을 확인했다. 처음에는 이게 단순한 임시 해결책인 줄 알았으나 네이버 쪽에서 받은 답변에 의하면 임시 해결책은 아니었다. 그리고 8월 28일에 상당히 상세한 기술적인 내용이 포함된 답장을 받았다. KDE 프로그램 설명서에서 공개되어 있었던 내 이메일 주소를 수집하면서, 띄어쓰기가 파파고 엔진에 있었던 패턴과는 다른 형태였기 때문에 파파고 전처리 단계에서 이메일 주소였다는 것을 인식하지 못하고 번역 결과에 노출시켜 버린 것이다. 그리고 공개 데이터 사용 시 데이터 정제 과정 및 이러한 형태의 오역 신고 개선을 준비 중에 있다는 건 이해하기로 했고, 네이버 쪽에서 밝힌 타임라인(8월 12일 모델 리프레시, 8월 21일 deploy)과 내가 관찰한 것이 일치하는 것도 확인했다. 이제 이 사건이 왜 이렇게 되었는지는 이해했고 사과의 뜻을 받아들이기로 마음먹고 개인정보분쟁조정위원회에서의 처분을 기다리기로 했다.

9월 10일에 개인정보분쟁조정위원회에서 연락이 왔고, 위원회 심의 전 조정 절차에 따른 합의를 통해서 사건을 종결하기로 결정했다. 개인정보분쟁조정위원회 측에서 제시한 합의안이 내 피해를 충분히 보상할 수 있다고 보았기에 합의를 받아들이기로 했고, 중간에 추석 연휴가 끼어 있어서 서류 처리에 시간이 조금 지연되었다. 그리고 10월 6일에 합의 이행을 확인하여 사건이 완전히 종결되었다.

다른 이상한 이메일은 원인은 잘 알려져 있었으나 해결책을 사용하는 데 시간이 걸렸던 한편, 이번 파파고 오역 사건은 원인을 찾는 데에만 8개월이라는 시간이 걸렸다. 만약 처음 내게 독일 아마존, 보다폰, O2 문의 메일을 보냈던 사람들이 내 이메일에 좀만 더 신경을 써서 답해 줬다면 8개월이라는 시간이 상당히 줄어들었을 수도 있다. 그리고 한국어로 물어 보는데 파파고로 번역했다는 걸 왜 숨겼는가 이해가 아직까지도 가지 않는다. 또 URL과 같은 것들을 번역기에 집어넣었을 때 달라졌다면 그걸 확인을 안 하는 사람은 왜 그리도 많았는지. 파파고가 원인인 것을 알게 된 후에는 상대적으로 일사천리로 진행되었고, 결과 자체는 만족스럽게 끝났다. 도대체 어디서 개인정보가 유출된 건지 몰랐던 8개월보다는 문제 해결까지의 2개월이 더 짧은 시간이기도 하고. 부디 앞으로 내 이메일로 이상한 무언가가 들어오지 않기를 바라면서 사건을 닫는다.

2020-10-06 업데이트: 사건 종결에 따라서 본문 내용의 업데이트를 한 데 모아서 보기 좋게 수정했다.