Système de lecteur de musique à assistance vocale basé sur une API

Système de lecteur de musique à assistance vocale basé sur une API

Un projet de dernière année sur « API Based Voice Assisted Music Player System » a été soumis par Siddhant Singh (de JSSATE Bangalore) à extrudesign.com.

Système de lecteur de musique à assistance vocale basé sur une API

Abstrait

Le mode de communication humain le plus fréquent est la parole. C’est très important à des fins de communication. La technologie de reconnaissance vocale s’améliore et devient de plus en plus utilisée, permettant de nouvelles applications à commande vocale. L’interface homme-machine fait référence à la communication entre les humains et les ordinateurs. Les systèmes de reconnaissance vocale peuvent être des remplacements très efficaces pour les systèmes existants où la manipulation manuelle d’un lecteur de musique est lourde pour les personnes âgées ou physiquement handicapées. La capacité de communiquer est l’une des caractéristiques les plus essentielles du comportement humain. Les langues naturelles sont utilisées par les humains pour communiquer (parler et écrire). Le texte représente le format écrit de la communication humaine, tandis que la parole fait référence à la forme vocalisée de la communication humaine.

Notre objectif est d’apporter cette technologie très utile au système de divertissement à domicile, qui sera utile aux enfants, aux personnes âgées et aux femmes au foyer à des fins de divertissement. Ils pourront écouter leur musique préférée avec juste leur voix en commandant ou en disant lecture, pause, avance, recul, arrêt, etc.

Mots clés: Reconnaissance, vocalisé, comportement, Lecteur de musique à assistance vocale

introduction

« Musify » a été créé pour pallier les failles du système de manuel de pratique traditionnel. Ce logiciel est conçu pour éliminer ou, dans certaines circonstances, atténuer les difficultés auxquelles ce système est actuellement confronté. De plus, ce système est conçu pour exécuter les processus de manière fluide et efficace tout en offrant une expérience utilisateur transparente.

Pour éliminer les erreurs de saisie, l’application a été simplifiée au maximum. L’utilisateur n’a besoin d’aucune connaissance formelle pour utiliser ce système. En conséquence, il montre qu’il est simple à utiliser. Comme indiqué précédemment, Musify peut générer une application musicale sans erreur, sûre, fiable et rapide. Cela peut aider l’utilisateur à se concentrer sur ses autres tâches plutôt que de suivre ses dossiers. L’entreprise pourra utiliser au maximum ses ressources à cette fin. Il possède une interface utilisateur très attrayante avec de nombreuses fonctionnalités telles que des listes de lecture personnalisées, l’historique de la musique et la lecture assistée par la voix, qui est l’argument de vente unique du projet.

L’objectif de Musify est d’utiliser un logiciel informatique à part entière pour automatiser le système manuel existant, répondant à leurs besoins afin que leurs données/informations vitales puissent être stockées pendant de longues périodes avec un accès et une manipulation faciles. Les logiciels et le matériel nécessaires sont facilement disponibles et simples à utiliser.

Système de lecteur de musique existant

L’approche actuelle suggère soit de sauvegarder de la musique hors ligne, soit de payer un service coûteux pour écouter sa musique préférée. Il n’y a pas une seule application open source qui ne soit pas financée par la publicité et qui possède toutes les fonctionnalités. L’entretien et la mise à jour des archives d’une bibliothèque musicale est une tâche chronophage qui peut être totalement automatisée.

Système de lecteur de musique à assistance vocale proposé

L’objectif de Musify est d’utiliser des équipements informatisés et des logiciels informatiques à part entière pour automatiser le système manuel existant, répondant à leurs besoins afin que leurs données/informations vitales puissent être stockées pendant une période plus longue avec un accès et une manipulation faciles. Les logiciels et le matériel nécessaires sont facilement disponibles et simples à utiliser.

Voici les principales caractéristiques du projet :

  • Créez vos propres listes de lecture
  • Le suivi et la gestion des enregistrements sont simples.
  • L’histoire de la musique
  • Lecture avec assistance vocale
  • Attrayant et convivial

Méthodologie

La reconnaissance vocale consiste à utiliser des algorithmes sophistiqués pour convertir la parole humaine en texte ou en signal de contrôle. De nombreux systèmes d’authentification biométrique et systèmes d’automatisation à commande vocale reposent sur la reconnaissance vocale. En raison des différences entre les appareils d’enregistrement, les haut-parleurs, les circonstances et l’environnement, la reconnaissance vocale est difficile.

Système de reconnaissance vocale automatisé

La parole dans n’importe quelle langue naturelle est introduite dans un système ASR ou parole-texte (STT). Les deux composants de base d’un système STT sont le traitement de la parole et la génération de texte. Alors que le système de traitement de la parole est chargé d’extraire différentes caractéristiques vocales et de produire une séquence appropriée d’unités phonémiques à partir de la parole d’entrée, le composant de génération de texte, également connu sous le nom de reconnaissance vocale, est chargé de générer le texte de sortie pour les segments de mots reconnus.

Système de lecteur de musique à assistance vocale basé sur une API

L’interface frontale DSP (Digital Signal Processing) et l’interface principale NLP (Natural Language Processing) constituent un système ASR typique (ou « moteur »). Le frontal extrait des aspects distincts de la voix d’entrée à des fins de formation ou de test. Le module de reconnaissance, ou back-end, traduit les caractéristiques extraites en la représentation linguistique symbolique ou le texte approprié, en utilisant le modèle de langage développé pendant la phase d’extraction des caractéristiques sur un ensemble de données d’apprentissage.

Mise en œuvre

L’API Web Speech est abordée dans cette section. L’analyse vocale et la synthèse vocale sont toutes deux couvertes par l’API Web Speech. Pour le dire autrement, il vous permet de convertir la parole en texte et vice versa. L’API est entièrement écrite en JavaScript, qui est aujourd’hui l’un des langages de script côté client les plus populaires sur Internet.

L’API Web Speech est pilotée par les événements, ce qui s’intègre parfaitement à l’approche de programmation lourde de rappels de JavaScript. Toutes les communications avec un service de reconnaissance vocale basé sur le Web sont gérées par l’agent utilisateur, qui à son tour gère les appels d’API. L’agent utilisateur doit bien entendu implémenter l’API pour que cela fonctionne. Les programmes peuvent traiter la parole de manière asynchrone à l’aide de l’architecture basée sur les événements. Les événements peuvent également être utilisés pour transmettre des résultats de reconnaissance vocale intermédiaires, ce qui est utile car cela permet aux applications de fournir un retour presque instantané aux utilisateurs. La reconnaissance vocale peut être interrompue à tout moment, ce qui est utile car elle fait gagner du temps au développeur Web dans les méthodes du gestionnaire d’événements.

Les résultats de reconnaissance intermédiaires ou finaux sont présentés sous la forme d’une liste de phrases candidates, chacune avec son propre indice de confiance. La transcription la plus susceptible d’être correcte est présentée en premier. L’API fait la distinction entre les parties préliminaires de la transcription et les parties terminées. Lorsque vous examinez les résultats intermédiaires lors de la reconnaissance vocale, cela est utile et continue.

Prise en charge du navigateur

Google Chrome, Mozilla Firefox, Microsoft Internet Explorer, Safari et Opera sont les navigateurs les plus populaires actuellement utilisés [2]. Cependant, l’API Web Speech n’est prise en charge qu’à titre expérimental dans Google Chrome (version 25+). Le W3C ne reconnaît pas l’API Web Speech comme standard. Les symboles de l’implémentation sont préfixés par le fournisseur au moment de la rédaction en raison de la nature expérimentale, et le code utilisant l’API Speech dans Chromium ressemble actuellement à ceci :

var rec = new webkitSpeechRecognition();
reconnaissance.onresult = fonction(événement) {
// …
} ;
reconnaissance.start();
// …

Résultats et discussion

La plupart des phrases sont difficiles à comprendre pour le logiciel de reconnaissance vocale. Les phrases sont difficiles à comprendre, du moins selon une oreille humaine. Ils ont un ton inhabituel et peuvent être difficiles à comprendre pour les anglophones non natifs. Cette recherche n’aborde en quelque sorte pas comment cela se rapporte au niveau de difficulté pour la compréhension de la machine.

Les résultats sont plus brillants au niveau du mot qu’au niveau de la phrase. Sur un total de 11540 mots prononcés, le module de reconnaissance vocale en reconnaît avec succès 8540. Cela signifie que 74% de tous les mots prononcés sont reconnus correctement. La précision des mots, contrairement au pourcentage de mots justes, tient compte des insertions. Cependant, seul le nombre d’insertions est faible et la précision globale des mots de 73 % est similaire au pourcentage de mots correctement détectés. Les hommes (74 %) et les femmes (74 %) ont des niveaux similaires de précision des mots (72 %). Encore une fois, les deux seuls enfants ont obtenu des scores plus élevés (83 %).

Tableau : Dix résultats de reconnaissance vocale choisis au hasard.

La transcription obtenue à partir de la saisie vocale est découpée dans notre application Web. Nous obtenons l’action à effectuer et l’objet à faire correspondre dans le backend après le découpage, par exemple, si l’utilisateur dit « jouer [song name]”, il est découpé en deux morceaux, le premier étant l’action à effectuer, dans ce cas, jouer, et le second étant le nom de la chanson. Au cours de plusieurs instances de test, il a été découvert que la fiabilité atteinte était d’environ 75 %.

Conclusion

Nous pensons que la bonne musique doit être accessible à tous et qu’avoir un lecteur de musique riche en fonctionnalités avec toutes les fonctions est le meilleur moyen d’y parvenir. De nombreux consommateurs pourront profiter de nos efforts et écouter leur musique préférée avec toutes les fonctionnalités sans frais supplémentaires. La fonction de vente unique de notre projet est la lecture et la navigation à commande vocale, qui permettront aux utilisateurs d’écouter leur musique préférée de manière plus fluide et sans effort.

Les références

  • K. Govardhanaraj et D. Nagaraj, « Lecteur de musique intelligent avec ARM7 », Conférence mondiale 2015 sur les technologies de communication (GCCT), Thuckalay, Inde, 2015, pp. 323-326, doi : 10.1109/GCCT.2015.7342676.
  • A. Nilakhe et S. Shelke, « A design for wireless music control system using Speech Reconnaissance », 2016 Conference on Advances in Signal Processing (CASP), Pune, Inde, 2016, pp. 337-339, doi: 10.1109/CASP. 2016.7746191.
  • SP Panda, « Système de reconnaissance vocale automatisé pour l’avancement de l’interaction homme-machine », Conférence internationale 2017 sur les méthodologies et la communication informatiques (ICCMC), Erode, Inde, 2017, pp. 302-306, doi : 10.1109/ICCMC.2017.8282696.
  • B. Jolad et R. Khanai, « An Art of Speech Recognition: A Review », 2019 2e Conférence internationale sur le traitement du signal et la communication (ICSPC), Coimbatore, Inde, 2019, pp. 31-35, doi: 10.1109/ICSPC46172. 2019.8976733.

Remerciements

Les auteurs restent reconnaissants à M. Sharana Basavana Gowda, professeur adjoint, Département d’informatique et d’ingénierie, JSS Academy Of Technical Education Bangalore pour leurs discussions et suggestions utiles lors de la préparation de ce document technique.

Crédits: Ce projet « Système de lecteur de musique à assistance vocale basé sur une API » est réalisé par Siddhant Singh, Shubham Sahu, Gaurav Kumar et Arpit Dutta du Département d’informatique et d’ingénierie, JSSATE, Bengaluru, INDE.