Virtuelle Stimmen: Der neuronale Text-to-Speech-Dienst von Azure

Wie die WaveNet-Technologie von Google den Weg für Geräte geebnet hat, die mit Ihnen sprechen. Voysis-Gründer und CEO Peter Cahill darüber, wie die jüngsten Fortschritte bei maschinengenerierter Sprache die Interaktion mit Maschinen auf der von O'Reilly und Intel präsentierten AI-Konferenz verändern werden AI.

Mehr über Windows

  • Verwendung des Gott-Modus in Windows 10
  • Windows 10 PowerToys: Ein Spickzettel
  • Microsofts größte Flops des Jahrzehnts
  • 10 Tricks und Optimierungen zum Anpassen von Windows 10 (kostenloses PDF)

Die Zeiten der Tastatur und des Bildschirms als einzige Methode zur Interaktion mit einem Computer sind lange vorbei. Jetzt sind wir von natürlicheren Benutzeroberflächen umgeben, die unser Repertoire an Interaktionen um Berührungs- und Spracherkennung erweitern. Gleiches gilt für die Reaktion von Computern auf uns mithilfe von Haptik und Sprachsynthese.

Das Sprechen wird immer wichtiger, da es eine freihändige und entfernte Möglichkeit bietet, mit Geräten zu arbeiten. Es ist nicht notwendig, sie zu berühren oder anzusehen - alles, was benötigt wird, sind eine Handvoll Triggerwörter und ein gutes Spracherkennungssystem. Wir sind vielleicht am besten mit digitalen Assistenten wie Cortana, Alexa, Siri und Google Assistant vertraut, aber Sprachtechnologien werden in Assistenzsystemen, in Autoanwendungen und in anderen Umgebungen eingesetzt, in denen manuelle Operationen schwierig, ablenkend oder geradezu gefährlich sind.

Künstliche Stimmen für unseren Code

Die andere Seite der Spracherkennungsgeschichte ist natürlich die Sprachsynthese. Computer können Text gut anzeigen, aber nicht sehr gut, um ihn uns vorzulesen. Was benötigt wird, ist eine einfache Möglichkeit, Textinhalte in erkennbare Sprache in menschlicher Qualität umzuwandeln, nicht in die unheimliche Monotonie eines Science-Fiction-Roboters. Wir sind alle mit den Sprachsynthesetools in automatisierten Telefoniesystemen oder in GPS-Apps vertraut, bei denen grundlegende Aussprachtests nicht bestanden werden und Namen und Adressen auf amüsante Weise falsch sind.

Eine qualitativ hochwertige Sprachsynthese ist nicht einfach. Wenn Sie den Standardansatz verwenden und Text Zeichenfolgen von Phonemen zuordnen, ist das Ergebnis häufig gestelzt und neigt zu falscher Aussprache. Was noch beunruhigender ist, ist, dass es wenig oder keine Beugung gibt. Selbst die Verwendung von SSML (Speech Synthesis Markup Language) zum Hinzufügen von Hervorhebungen und Beugungen macht keinen großen Unterschied und erhöht nur die Arbeitslast der Entwickler, sodass jede Äußerung im Voraus markiert werden muss, um die entsprechenden Sprachkonstruktionen hinzuzufügen.

Ein Teil des Problems ist die Funktionsweise der herkömmlichen Sprachsynthese mit separaten Modellen sowohl zur Analyse des Textes als auch zur Vorhersage des erforderlichen Audios. Da es sich um separate Schritte handelt, ist das Ergebnis eindeutig künstlich. Was benötigt wird, ist ein Ansatz, der diese separaten Schritte in einer einzigen Sprachsynthese-Engine zusammenführt.

Microsoft's text-to-speech service uses deep neural networks to improve the way traditional text-to-speech systems match patterns of stress and intonation in spoken language (prosody) and synthesise speech units into a computer voice.

" data-credit="Image: Microsoft" rel="noopener noreferrer nofollow">

Der Text-to-Speech-Dienst von Microsoft verwendet tiefe neuronale Netze, um die Art und Weise zu verbessern, in der herkömmliche Text-to-Speech-Systeme Stress- und Intonationsmuster in gesprochener Sprache (Prosodie) abgleichen und Spracheinheiten zu einer Computerstimme zusammenfassen.

Bild: Microsoft

Verwendung neuronaler Netze für überzeugendere Sprache

Microsoft Research arbeitet seit einiger Zeit an der Lösung dieses Problems. Die daraus resultierende neuronale netzwerkbasierte Sprachsynthesetechnik ist jetzt als Teil der Sprachwerkzeuge von Azure Cognitive Services verfügbar. Mithilfe des neuen neuronalen Text-zu-Sprache-Dienstes, der aus Gründen der Skalierbarkeit im Azure Kubernetes-Dienst gehostet wird, wird generierte Sprache an Endbenutzer gestreamt. Anstelle mehrerer Schritte wird der eingegebene Text zuerst durch einen neuronalen akustischen Generator geleitet, um die Intonation zu bestimmen, bevor er unter Verwendung eines neuronalen Sprachmodells in einem neuronalen Vocoder gerendert wird.

Das zugrunde liegende Sprachmodell wird über Deep-Learning-Techniken unter Verwendung eines großen Satzes abgetasteter Sprache als Trainingsdaten erzeugt. Das ursprüngliche Microsoft Research-Dokument zu diesem Thema geht detailliert auf die verwendeten Trainingsmethoden ein, wobei zunächst die Rahmenfehlerminimierung verwendet wird, bevor das resultierende Modell mit der Sequenzfehlerminimierung verfeinert wird.

Die Verwendung der neuronalen TTS-Engine ist einfach genug. Wie bei allen Cognitive Services beginnen Sie mit einem Abonnementschlüssel und erstellen damit eine Klasse, die die Text-to-Speech-APIs aufruft. Sie müssen lediglich eine der neuronalen Stimmen auswählen, um den neuen Dienst zu nutzen. Die zugrunde liegenden APIs sind für neuronale und Standard-TTS identisch. Sprachantworten werden vom Dienst auf Ihr Gerät gestreamt, sodass Sie sie entweder direkt an Ihre Standard-Audioausgabe weiterleiten oder als Datei speichern können, um sie später wiederzugeben.

Künstliche Intelligenz: Ein Leitfaden für Unternehmensleiter (kostenloses PDF)

Neuronale Stimmen unterstützen weiterhin SSML, sodass Sie die Standardstimmen selbst anpassen können. Dies gilt zusätzlich zu ihren spezifischen Optimierungen für bestimmte Sprachtypen. Wenn Sie SSML nicht verwenden möchten, wählen Sie eine neuronale Stimme nach Merkmalen aus - beispielsweise eine neutrale Stimme oder eine fröhliche Stimme. SSML kann verwendet werden, um die Wiedergabe zu beschleunigen oder die Tonhöhe eines Sprachsegments zu ändern, ohne die synthetisierte Stimme zu ändern. Auf diese Weise können Benutzer die Ausgabe an ihre Arbeitsumgebung anpassen und die für sie geeigneten Spracheinstellungen auswählen.

Microsoft hat neuronale Stimmen in mehreren Regionen verfügbar gemacht. Für eine bessere Sprachabdeckung müssen Sie jedoch wieder die älteren Standard-Sprachsynthesemodelle verwenden. Neuronale Stimmen sind in Englisch, Deutsch, Italienisch und Chinesisch mit fünf verschiedenen Stimmen verfügbar. Die meisten sind weiblich, aber es gibt eine männliche englische Stimme.

Hinzufügen neuronaler Stimmen zu Ihren Apps

Wo würden Sie also neuronale Stimmen verwenden? Die offensichtliche Wahl liegt in jeder Anwendung, die eine lange Reihe von Sprachinteraktionen erfordert, da die traditionelle Sprachsynthese für lange Zeiträume anstrengend sein kann. Sie möchten auch neuronale Stimmen verwenden, bei denen Sie die kognitive Belastung nicht erhöhen möchten - ein Risiko, das durch die Verwendung natürlicherer Stimmen reduziert wird. Digitale persönliche Assistenten und Systeme im Auto sind ein logischer erster Schritt für diese neuen Techniken. Sie können sie jedoch verwenden, um schnell Audioversionen vorhandener Dokumente zu erstellen, die Kosten für Hörbücher zu senken und Benutzern mit auditorischen Lernstilen zu helfen.

Wenn Sie mit der Verwendung neuronaler Stimmen in Ihren Anwendungen beginnen möchten, bietet Microsoft ein kostenloses Abonnement an, mit dem Sie monatlich 500.000 Zeichen erkannten Textes erhalten. Da neuronale Stimmen mehr Rechenaufwand erfordern als herkömmliche Methoden auf Sample-Basis, sind sie teurer zu verwenden, aber bei 16 US-Dollar pro Million Zeichen, sobald Sie den kostenlosen Dienst verlassen, wird die Bank nicht kaputt gehen - insbesondere, wenn Sie die verwenden Option zum Speichern von Äußerungen zur späteren Verwendung. Diese können verwendet werden, um eine Bibliothek häufig verwendeter Sprachsegmente zu erstellen, die bei Bedarf wiedergegeben werden können.

Da Sprache ein immer wichtigeres Instrument für Barrierefreiheit ist, ist es gut zu sehen, dass der Stand der Technik über gestelzte, offensichtlich künstliche Stimmen hinausgeht. Die Einführung neuronaler Stimmen durch Microsoft in der Cognitive Services-Suite ist ein wichtiger Schritt nach vorne. Jetzt müssen sie in mehr Sprachen und Regionen gebracht werden, damit wir alle von diesen neuen Sprachsynthesetechniken profitieren können.

Microsoft Weekly Newsletter

Seien Sie der Microsoft-Insider Ihres Unternehmens mithilfe dieser Windows- und Office-Tutorials und der Analysen unserer Experten zu Microsoft-Unternehmensprodukten. Wird montags und mittwochs geliefert

Heute anmelden

Siehe auch

  • Maschinelles Lernen: Ein Spickzettel (TechRepublic)
  • Telemedizin, KI und Deep Learning revolutionieren das Gesundheitswesen (TechRepublic-Download)
  • Verwalten von KI und ML im Unternehmen 2019: Technologieführer erwarten größere Schwierigkeiten als frühere IT-Projekte (Tech Pro Research)
  • Was ist KI? Alles, was Sie über künstliche Intelligenz (ZDNet) wissen müssen
  • 6 Möglichkeiten, sich aus dem Internet zu löschen (CNET)
  • Künstliche Intelligenz: Mehr Berichterstattung (TechRepublic on Flipboard)

© Copyright 2021 | mobilegn.com