À terme, n’importe qui pourrait pouvoir écouter un livre audio avec sa propre voix
Prospectif : Les livres audio ont gagné en popularité ces dernières années en raison de leur accessibilité, mais les enregistrer peut être difficile et coûteux. Les chercheurs ont récemment démontré une méthode automatisée utilisant la synthèse vocale qui résout de nombreux problèmes rencontrés par la technologie et pourrait permettre aux utilisateurs ordinaires de générer des livres audio.
Les lecteurs peuvent désormais écouter des milliers de livres audio gratuits de littérature classique et d’autres documents du domaine public via le Projet Gutenberg. Les chercheurs de Microsoft et du MIT ont créé la collection en numérisant les livres avec un logiciel de synthèse vocale qui semble naturel et peut analyser correctement le formatage.
Les textes comprennent des œuvres de Shakespeare, Agatha Christie, Jane Austen, Léonard de Vinci et bien d’autres. Les utilisateurs peuvent les écouter sur Internet Archive, Spotify, Apple Podcasts et Google Podcasts. Le code utilisé pour créer la collection est disponible sur GitHub.
Apple a commencé à vendre des livres audio en janvier en utilisant la technologie automatisée de synthèse vocale. Cependant, l’entreprise a été scrutée par des personnalités littéraires critiques à l’égard des objectifs commerciaux d’Apple et par des comédiens dont le travail a entraîné l’IA de l’entreprise. L’approche de Gutenberg pourrait susciter une réaction différente en raison de son caractère open source sans but lucratif.
Le projet Gutenberg a passé des décennies à constituer une bibliothèque de littérature gratuite au format texte pour la rendre largement disponible gratuitement, mais les livres audio pourraient rendre ce matériel encore plus accessible. Ils sont utiles pour les lecteurs qui conduisent, effectuent plusieurs tâches à la fois, sont malvoyants, apprennent à lire ou apprennent une nouvelle langue.
Créer un livre audio à l’aide de méthodes traditionnelles nécessite du temps et de l’argent pour payer quelqu’un pour lire un livre entier à haute voix. Il n’est pas économiquement rentable d’enregistrer manuellement une version audio de chaque livre qui mérite d’être lu. La synthèse vocale est mieux adaptée au projet Guttenberg. Cependant, les outils d’apprentissage automatique des chercheurs se sont heurtés à de multiples obstacles.
Le premier et le plus important problème consistait à déterminer quels livres numériques le logiciel pouvait analyser. Le projet Gutenberg rassemble ses documents dans plusieurs formats et nombre de ses fichiers contiennent des erreurs ou des analyses imparfaites. Ainsi, les chercheurs se sont concentrés sur les livres stockés sous forme de fichiers HTML et ont construit un outil (photo ci-dessus) pour découvrir quels éléments affichaient un format similaire.
Un autre problème résolu par les chercheurs était de s’assurer que le système savait quel texte lire ou ignorer. Il abordait des éléments tels que les tables des matières, les numéros de page, les notes de bas de page, les tableaux et autres éléments superflus.
De plus, les résultats doivent être suffisamment proches de la parole humaine naturelle. Les chercheurs se sont concentrés sur une transmission vocale la mieux adaptée aux œuvres de non-fiction et à la narration, mais les utilisateurs peuvent modifier le logiciel pour tenter des lectures dramatiques.
Les chercheurs prévoient d’organiser une démonstration permettant aux utilisateurs de générer un livre audio avec leur voix. Après avoir enregistré quelques lignes pour entraîner l’algorithme, chaque participant peut entendre un extrait avant de permettre au logiciel de lire un livre entier. Ils recevront également une copie du livre audio par e-mail. Les utilisateurs peuvent éventuellement choisir parmi des voix synthétiques pour personnaliser chaque livre audio.