Les pouvoirs du son

2021 - 2026 : la grande épopée de l’IA musicale

Par Vincent Thobel - Le 29 avril 2021

Avec Ircam Amplify

Accueil > Nouveaux usages > Les pouvoirs du son > 2021 - 2026 : la grande épopée de l’IA musicale

Depuis l’apparition de la K7 en 1963, les supports d’écoute ont littéralement muté sous l’impulsion des technologies numériques. Aujourd'hui, pour découvrir de nouveaux sons et les écouter où bon nous semble, une majorité d'entre nous suit les recommandations des plateformes de streaming qui carburent à l'intelligence artificielle. Mais, comme nous l'ont soufflé Frédéric Amadu et Nicolas Pingnelain d'Ircam Amplify, ce n'est qu'un début.

Intelligence ambiante, continuité géographique, restitution spatiale : comment l'IA va-t-elle changer la vie des mélomanes ?

Comment le stream a envahi le monde

Entre métro, boulot, dodo, une routine s’est installée : le stream musical. En France, c’est en 2016 que les plateformes dédiées s’imposent sur le marché en devenant la principale source de revenus de l’industrie musicale. Par capillarité, la consommation en streaming n’a depuis cessé de grimper pour exploser en 2019 et atteindre des records avec la crise du Covid. Selon une étude Kantar, 25% des Français ont consommé plus de musique en streaming depuis le premier confinement, et 65% d’entre eux sont résolus à ne pas perdre cette bonne habitude.

Le principe de recommandation musicale dont nous raffolons tous désormais sur les services de streaming fonctionne grâce à l'intelligence artificielle et plus précisément au Machine Learning, une technologie qui fait l'apprentissage de nos goûts pour nous suggérer une ribambelle de playlists. Celles-ci croisent les styles, les genres, les ambiances et les nouveautés qu'on a consommés dans la semaine. Parfois, l'IA qui détermine ces compilations propose aussi des medleys thématiques censés accompagner le mood d'activités quotidiennes (séance de sport, session de travail) ou faire écho à une émotion ressentie.

Mais pour Frédéric Amadu, CTO d’Ircam Amplify, ces suggestions thématisées sont trop automatiques, linéaires et ne tiennent pas vraiment leurs promesses. « Sur les grandes plateformes musicales, les playlists proposées sont hétérogènes et statiques. Le problème c’est qu’elles sont communes à tous. Elles ne peuvent pas correspondre à ce que chacun attend comme ambiance pour telle ou telle activité, ou comme réponse à une émotion », nous explique-t-il. De plus, renchérit Nicolas Pingnelain, responsable commercial chez Ircam Amplify : « nous avons aujourd’hui un flux de production pléthorique et donc une multitude de choix. Pourtant, nous n’avons jamais autant écouté les mêmes choses ».

Nous enfermons-nous insidieusement dans une bulle de filtre musicale, comme l’a théorisé Eli Pariser ? Complices, les algorithmes que nous côtoyons quotidiennement participent, en intelligence avec nos biais cognitifs, à ce cloisonnement intellectuel qui conforte nos goûts et nous détourne de l'inattendu. Sur Spotify, les playlists personnalisées sont responsables de la moitié des écoutes mensuelles pour plus de 8 000 artistes. Selon les chercheurs Jean-Samuel Beuscart, Samuel Coavoux et Sisley Maillard dans leur publication Les algorithmes de recommandation musicale et l’autonomie de l’auditeur, « les travaux évaluant les effets des recommandations algorithmiques portent surtout sur leurs effets sur la diversité des contenus : parce qu’il est fondé sur la concurrence des consommations, le filtrage collaboratif peut favoriser l’enfermement dans un portfolio de produits très similaires. Alors qu’il est pensé comme une façon de favoriser la découverte d’artistes peu connus, il peut aussi paradoxalement renforcer la place des stars ».

Pour nous aider à rompre avec ces (mauvaises) habitudes et promouvoir une nouvelle consommation musicale, Ircam Amplify, filiale de l’Ircam (Institut de Recherche et Coordination Acoustique/Musique) a lancé Metasound au mois de mars. Cette solution a pour but de créer de nouvelles interconnexions entre titres, genres et univers différents, mais aussi de proposer des playlists intelligentes et évolutives (personnalisables et contextualisées). Les titres et catalogues passant sous le radar du grand public peuvent ainsi être valorisés. Une nouvelle des plus encourageantes pour les jeunes artistes, leur distributeur et les utilisateurs avides de découvertes !

2023 : le descripteur en temps réel pour des playlists intelligentes

Avance rapide sur la bande-son du futur. D’ici deux ans, les descripteurs en temps réel seront légion. Mais qu’est-ce donc ? Cette technologie analyse en live l’audio diffusé et l’ambiance sonore du lieu d’écoute. Elle prendra par exemple en compte l’intonation, l’intensité, le rythme, les fréquences et les bruits de fond afin d’adapter son volume et d’affiner les propositions musicales.

Un descripteur pour pimper des retrouvailles en famille, des dîners entre amis ou des dimanches pluvieux ? Voilà l’idée ! Si la musique est la pierre angulaire de ces moments chéris, elle ne sera pas forcément la même selon les ambiances. Collective ou introspective, l’écoute est censée épouser un moment et l’accompagner de bout en bout. Pour éviter qu’elle ne soit lue au gré des IA et des playlists linéaires, le descripteur pourra l’adapter à l’énergie de la pièce, au son ambiant, à l’intensité, et ainsi s’autoréguler et faire corps avec l’ambiance ressentie, à la recherche de l’atmosphère parfaite : le bon contenu, au bon moment, pour un usage donné. Car « ce qui ne fonctionne pas aujourd'hui, c'est de prétendre avoir une playlist pour travailler, pour être calme et concentré, sans prendre en compte les goûts et l’ambiance dans laquelle baigne l’utilisateur », soulève Frédéric Amadu, « et puis, ajoute Nicolas Pingnelain, lors de dîners, nous avons parfois besoin que la musique s’adapte aux intonations, à l’énergie des débats ou à la fatigue des convives, en proposant une ambiance sonore adéquate, captant ou non l’attention avec des titres connus ou de nouveaux morceaux ».

Aujourd’hui, la découverte de nouveaux morceaux peut être rendue difficile, notamment à cause de cette bulle de filtres dont nous avons du mal à nous défaire. Mais pourquoi ? Les IA se fondent sur la structure ou le style d’un morceau, définissent des standards rigides pour qualifier nos goûts en musique. Trop pré-formatées, les suggestions d’écoute censées épouser nos goûts et nous pousser à l’éclectisme, restent « hétérogènes et statiques ». « Aujourd’hui et dans deux ans, il sera nécessaire de créer des « cartes d’identité » homogènes entre les morceaux, donc d’identifier et d’extraire automatiquement les données de base de n’importe quelle musique et pourquoi pas, pour des usages spécifiques, d’augmenter leur contenu grâce à des actions éditoriales manuelles. De ne pas uniquement les lier par genre, mais aussi par émotion, intensité, ambiance… Aujourd’hui, certains modèles conçoivent leurs playlists de manière automatisée. D’autres devront faire coïncider l’approche éditoriale et les données d’usage pour être au plus proche des envies à l’instant T de l’utilisateur, et ainsi être plus juste », explique Nicolas Pingnelain, et d’ajouter : « sinon il y aura un risque de retomber en permanence sur les chansons qui nous confortent. Il faut repousser les bordures et permettre aux morceaux de s’imbriquer dans de nouveaux contextes d’écoute personnalisés (genres, émotions, ambiances…). En qualifiant des catalogues musicaux de millions de titres à l’aide du machine learning, on permettra ainsi plus de découvertes, pour des voyages musicaux plus adaptés et plus riches ».

L’adaptabilité est donc le maître mot de cette IA cheffe d’orchestre et de son algorithme de plus en plus fin qui généreront des playlists intelligentes en fonction des personnes et de leur environnement.

Et s’il existait d’autres paramètres pour rendre l’expérience encore plus immersive ?

2026 : de la continuité géographique à la restitution spatiale

Dans cinq ans, les technologies accompagneront l’utilisateur d’un point A à un point B tout en s’adaptant à son environnement, son matériel et sa position géographique (voire à son état émotionnel !).

Vers l’infini et au-delà ? Pour Frédéric Amadu, l’avenir est tourné vers une IA accompagnante où la continuité sera un paramètre essentiel : « dans cinq ans, la musique nous suivra partout. Cela commencera via le diffuseur à la maison, la chanson reprendra automatiquement dans la voiture, puis dans le casque sur le trajet du travail pour continuer seule sur l’ordinateur ». Et de changer en fonction des lieux ? Un grand « oui ! » pour Nicolas Pingnelain : « il est possible d’imaginer que la musique change dès que l’on arrive à proximité du travail, une fois que l’on est bien réveillé pour donner de la motivation ! ». Une problématique est toutefois soulevée par le duo : cette continuité fonctionnerait pour une écoute introspective de la musique. Elle devra donc s’adapter, grâce aux descripteurs sonores en temps réel, si l’utilisateur est accompagné d’amis ou d’enfants dans sa voiture. Deux salles, deux ambiances, mais mille possibilités.

Sur le plan technique, la restitution entre en compte. Les équipements diffèrent, de la maison au casque en passant par la voiture. L’IA sera, dans ces différents espaces, capable de restituer le son adéquat en intelligence et en jouant sur la spatialisation ou le son binaural (notamment via les casques audio) - tout cela « grâce au micro et à la captation via les équipements », explique Frédéric Amadu.

Pour Nicolas Pingnelain, grâce à cette spatialisation et aux descripteurs en temps réel, l’avenir sera aux expériences hybrides, propulsées par la crise sanitaire et l’avancée technologique. « D’ici quelques années, il sera possible de vivre un concert chez soi grâce à cette spatialisation et ces descripteurs, d’intégrer par exemple ses encouragements au son des supporters en live dans le stade pendant un match de foot ».

Plus personnel et intime, notre rapport à la musique, à son écoute, sera rapidement transformé par l’intelligence artificielle. Compagnon de route des mélomanes, elle saura s’adapter tant à leurs environnements privés que leurs équipements technologiques.