Entretien avec Nicholas Ruiz

Interview : Nicholas Ruiz, PhD. Chercheur en traduction vocale et en traitement du langage naturel et conseiller en traduction vocale pour Waverly Labs.

Que faites-vous sur Waverly Labs?

Je donne un aperçu des tendances actuelles en matière de reconnaissance vocale et de traduction automatique et je recommande des stratégies pour traduire au mieux d'une langue à l'autre.

Tout d'abord, quand et comment avez-vous décidé de devenir chercheur en traduction vocale ?

Pendant mes études, vers 2001, j'ai suivi des cours d'informatique et de langues étrangères en même temps. Cela m'a fait réfléchir : "Si l'on peut enseigner aux gens des règles pour apprendre une langue étrangère, peut-on apprendre à un ordinateur à faire de même ? Et si oui, comment la traduction automatique peut-elle aider à franchir les barrières de communication auxquelles nous sommes confrontés lorsque nous parlons avec des personnes de langues et de cultures différentes ? Lorsque j'ai commencé à mûrir dans le domaine de la traduction automatique au cours de mes études de maîtrise et de doctorat en Europe, j'ai commencé à me mettre au défi de m'immerger dans le problème de la traduction vocale, non seulement en laboratoire, mais aussi dans ma vie de tous les jours. J'ai assisté à des discours et à des cérémonies en italien et j'ai observé comment des interprètes non officiels s'efforçaient de traduire les paroles de l'orateur en anglais pour aider les groupes d'étudiants internationaux à suivre. La moitié du temps, je n'écoutais pas l'orateur ; au lieu de cela, mon esprit se perdait en réflexions sur la manière dont la traduction pouvait aider d'autres personnes à comprendre et à participer à des conversations quotidiennes avant qu'elles n'aient appris suffisamment la langue pour communiquer sans aide.

Le monde est-il prêt pour la traduction vocale ?

Nous entrons dans une ère où la reconnaissance vocale et la traduction automatique peuvent couvrir de nombreux scénarios de conversation qui nécessitaient auparavant l'intervention d'un interprète. Dans de nombreuses langues, les systèmes de reconnaissance vocale sont capables de reconnaître plus de 90 % des mots prononcés, et des paires de langues comme l'anglais et l'espagnol atteignent des records de précision. Bien que les traductions automatiques puissent parfois sembler bizarres, la technologie s'est développée au point que deux interlocuteurs peuvent raisonnablement comprendre ce que chacun dit. La technologie de la traduction automatique ne peut pas tout à fait remplacer les scénarios de traduction à haut risque où des traductions précises sont essentielles, mais elle couvre une grande partie des besoins lorsqu'une traduction professionnelle ou une interprétation humaine n'est pas le meilleur choix. En outre, la recherche a montré que la traduction automatique d'aujourd'hui peut aider les traducteurs professionnels à travailler plus rapidement, ce qui a ouvert de nouvelles possibilités, peut-être inattendues, dans le secteur où les traducteurs professionnels et la technologie de la traduction automatique travaillent ensemble.

Comment fonctionne la traduction vocale ?

La traduction vocale se compose de trois parties : la reconnaissance automatique de la parole (ou ce que certains appellent la "reconnaissance vocale"), la traduction automatique et la synthèse vocale, qui sont généralement réalisées en trois étapes distinctes. La reconnaissance automatique de la parole prend le son du microphone et le transcrit en mots. Ces mots sont ensuite traduits dans une autre langue, à l'aide de la traduction automatique statistique ou des nouvelles techniques de traduction automatique neuronale. Les mots traduits sont ensuite convertis en sons qui imitent la façon dont les locuteurs natifs parleraient par le synthétiseur vocal.

Quelle est la différence entre la traduction automatique statistique et la traduction automatique neuronale ?

En bref, la traduction automatique statistique tente d'apprendre des modèles de traduction de phrases ou de groupes de mots. Les règles de traduction sont automatiquement apprises à partir d'un grand nombre de phrases traduites dans une autre langue. Par exemple, une règle pourrait être "ma voiture bleue" => "mi coche azul", ou "voiture bleue" => "coche azul". Chaque règle reçoit plusieurs notes qui prédisent la probabilité d'utilisation de la traduction. Le système de traduction tente de combiner plusieurs règles pour produire une traduction dans une langue cible en arrangeant (ou en "réordonnant") les groupes de mots pour maximiser la fluidité de la traduction. Ces règles peuvent être similaires aux guides de conversation que les gens utilisent lorsqu'ils visitent un autre pays, mais un système de traduction typique possède des centaines de millions de règles de traduction qui sont apprises automatiquement.La traduction automatique neuronale est un peu plus une boîte noire. La plupart de ces systèmes de traduction utilisent un modèle "codeur-décodeur". Si l'on considère la traduction de l'anglais vers l'espagnol, l'"encodeur" convertit chacun des mots anglais en une séquence de vecteurs numériques et le "décodeur" génère un mot espagnol après l'autre en prélevant des informations dans chaque vecteur. Un "modèle d'attention" pondère chaque vecteur pour décider quelles parties codées de la phrase anglaise sont utiles pour produire le mot traduit suivant. Contrairement à la traduction automatique statistique, il est difficile de comprendre comment un système de traduction automatique neuronale prend ses décisions de traduction ; cependant, dans de nombreux cas, la traduction automatique neuronale produit des traductions plus fluides.

Comment Pilot rend-il possible la traduction conversationnelle de la parole ?

Comme je l'ai mentionné précédemment, la première étape de la traduction vocale est la reconnaissance vocale. L'un des défis de la reconnaissance automatique de la parole est d'obtenir un enregistrement de haute qualité qui réduit la quantité de bruit dans l'audio. Un son bruité perturbe les systèmes de reconnaissance vocale. Si le système de reconnaissance vocale n'est pas en mesure de reconnaître avec précision les mots que vous prononcez, il est fort probable que la traduction soit absurde. Bien qu'il existe des dispositifs de reconnaissance en champ lointain qui vous permettent de parler à l'autre bout de la pièce, la distance entre le(s) microphone(s) et le locuteur permet à d'autres bruits d'interférer avec le signal, ce qui rend la reconnaissance vocale plus difficile. Mais lorsque le microphone se rapproche du locuteur, le son enregistré est de meilleure qualité et moins bruyant. Les oreillettes Bluetooth ont été créées à l'origine pour permettre aux gens de parler au téléphone sans fil, tout en conservant une qualité élevée. Un cran au-dessus de la plupart des casques Bluetooth, Pilot utilise l'annulation du bruit ambiant et dispose d'un réseau de microphones configuré pour maximiser la qualité audio. L'objectif de Pilot est d'offrir une expérience de conversation naturelle et mains libres, soutenue par une technologie de traduction vocale qui minimise les frustrations liées à la communication interlinguistique. En partageant une oreillette avec un ami, vous pouvez engager une conversation multilingue en utilisant un seul kit de traduction. Nous avons spécifiquement conçu Pilot comme une oreillette de traduction, non seulement pour augmenter la précision de la reconnaissance vocale grâce à la position du microphone, mais aussi pour conserver une communication humaine fluide et naturelle.

Nicholas Ruiz

Restez à l'écoute !

-Équipe Waverly