Seite wählen

Die Vorverarbeitung muss auch Homographen angehen, Wörter, die auf unterschiedliche Weise ausgesprochen werden, je nachdem, was sie bedeuten. Das Wort „lesen“ kann entweder „rot“ oder „reed“ ausgesprochen werden, so dass ein Satz wie „Ich lese das Buch“ für einen Sprachsynthesizer sofort problematisch ist. Aber wenn sie herausfinden kann, dass der vorhergehende Text vollständig in der Vergangenheit spannen, indem sie vergangene Verben erkennt („Ich bin aufgestanden… Ich habe geduscht… Ich frühstückte… Ich lese ein Buch…“), kann es eine vernünftige Vermutung machen, dass „Ich lese [rot] ein Buch“ wahrscheinlich richtig ist. Ebenso, wenn der vorhergehende Text „Ich bin auf… Ich nehme eine Dusche… Ich frühstücke…“ das intelligente Geld sollte auf „Ich lese [Reed] ein Buch.“ Die Entwicklung intelligenterer Gesprächssysteme reicht Jahrzehnte zurück, wobei der ELIZA Chatbot erstmals 1966 als Illustration der Möglichkeiten maschinell vermittelter Gespräche entwickelt wurde.

Heutzutage sind Benutzer mit Sprachassistenten wie Alexa, Google Assistant, Apple Siri, Microsoft Cortana und webbasierten Chatbots vertrauter. Wenn Sie jedoch in letzter Zeit mit einem von ihnen interagiert haben, fehlt es ihnen immer noch an Verständnis in vielerlei Hinsicht. Es besteht kein Zweifel, dass ein Großteil der Arbeit von KI-Forschern in die Verbesserung der Möglichkeiten geht, wie Maschinen menschliche Sprache verstehen und erzeugen können und so die Macht jener Anwendungen stärken, die das Konversationsmuster von KI nutzen. Die Musterwiedergabe wurde zuletzt 1976 in einer experimentellen Studie von Robert Remez verwendet. Die Musterwiedergabe befindet sich heute im Museum der Haskins Laboratories in New Haven, Connecticut. Dies wird von Regel als phonemische Synthese bezeichnet. Ignatius Mattingly entwickelte den ersten Algorithmus, um automatisch die Prosodie der Sprache zu berechnen – Änderungen in der Tonhöhe, die wir verwenden, um die Syntax eines Satzes zu signalisieren. Um seinen Algorithmus zu testen, konnte er die Pattern-Wiedergabe nicht verwenden, da die Grundfrequenz (Pitch) nicht variiert werden kann.

Stattdessen nahm er seine Regeln in den Synthesizer von John Holmes von der Joint Speech Research Unit in England auf. 1966 wurden prosodische Regeln, die dem britischen Englisch entsprechen, erfolgreich synthetisiert; 1968 wurde ein amerikanisch-englisches Set prosodischer und phonemischer Regeln demonstriert. Die Regeln wurden in einem Haskins Text-to-Speech-Synthesizer verwendet, der 1973 demonstriert wurde. Eine spätere Version der von Delattre und Mattingly entwickelten Regeln wurde in Dennis Klatts Formant-Synthesizer verwendet, der am MIT entwickelt wurde, was 1979 zu MITTalk und 1983 zu KlattTalk und DECTalk führte. Dieser Formant-Synthesizer wird auch heute noch in vielen Text-zu-Sprache-Anwendungen verwendet. Angenommen, Sie haben einen Absatz mit geschriebenem Text, den Ihr Computer laut sprechen soll. Wie werden die geschriebenen Worte in solche, die man tatsächlich hören kann? Es geht im Wesentlichen um drei Phasen, die ich als Text zu Wörtern, Wörtern zu Phonemen und Phonemes zum Klingen bezeichntel werde. ✨ Demo: text-to-speech-code-pattern.ng.bluemix.net/ ✨ Computer ihre Aufgaben in drei verschiedenen Stufen erledigen, die Eingabe (wobei Sie Informationen einspeisen, oft mit einer Tastatur oder Maus), die Verarbeitung (wo der Computer auf Ihre Eingabe reagiert, z. B.

indem sie einige Zahlen addieren, die Sie eingegeben haben, oder die Farben auf einem gescannten Foto verbessern) und die Ausgabe (wo Sie sehen können, wie der Computer Ihre Eingaben verarbeitet hat, in der Regel auf einem Bildschirm oder auf Papier ausgedruckt).