Die moderne Technologie hat die Art und Weise revolutioniert, wie wir Dinge erledigen. Selbst die grundlegendste Version der Smartphones in den Taschen der meisten Menschen oder Smart-Home-Geräte in unseren Wohnräumen verfügt über eine beeindruckende Menge an Funktionen-insbesondere wenn Sie bedenken, dass Sie sie durch künstliche Intelligenz (KI) einfach durch Reden kontrollieren können. Aber selbst wenn Computer fortgeschritten sind, um unser Leben zu erleichtern. Und jetzt kann eine neue gruselige Form von KI Ihre Stimme perfekt simulieren, nachdem sie sie nur drei Sekunden lang gehört hat. Lesen Sie weiter, um mehr über die bahnbrechende Technologie zu erfahren.
Lesen Sie dies als nächstes: Laden Sie Ihr Android -Telefon niemals so auf, sagen Experten, sagen Experten.
Wir haben uns alle auf Maschinen verlassen, um unser tägliches Leben auf die eine oder andere Weise einfacher zu machen. Aber was wäre, wenn ein Computer einsteigen und nachahmen könnte, wie Sie sprechen, ohne dass andere es einmal bemerken,?
Letzte Woche gaben Forscher von Microsoft bekannt, dass sie eine neue Form von Text-to-Speech-KI entwickelt hatten. Die Technologie kann die Stimme einer Person simulieren, indem sie einen Drei-Sekunden-Audioclip verwenden, sogar den emotionalen Ton des ursprünglichen Sprechers und die akustischen Klänge der Umgebung, in der sie aufnehmen. Das Team sagte.
In seiner Arbeit über die neue Technologie diskutiert Microsoft Dubs Vall-E ein "neuronales Codec-Sprachmodell"."Was dies bedeutet, ist, dass die Software für herkömmliche Text-zu-Sprache (TTS) geschriebene Wörter einnimmt und Wellenformen manipuliert, um Vokalisationen zu erzeugen, die KI jedoch subtile Elemente einer Stimme und bestimmte Audioaufforderungen aufnehmen kann, die dazu beitragen, eine zuverlässige Erholung von einem zu erstellen. Person, die einen Satz spricht, der ihm verabreicht wird, laut der Website interessanter Engineering.
"Um personalisierte Sprache zu synthetisieren (e.G., Null-Shot-TTs), Vall-E erzeugt die entsprechenden akustischen Token, die auf den akustischen Token der 3-Sekunden-Aufzeichnungen und der Phonem-Eingabeaufforderung konditioniert sind, die den Sprecher und die Inhaltsinformationen einschränken ", erklärt das Team in ihrem Papier. "Schließlich werden die erzeugten akustischen Token verwendet, um die endgültige Wellenform mit dem entsprechenden neuralen Codec -Decoder zu synthetisieren."
Verwandte: Weitere Informationen finden Sie in unserem täglichen Newsletter.
Um das neue Modell zu entwickeln, hat das Team von mehr als 7.000 Einzelsprechern aus einer Audiobibliothek, die von Meta bekannt als Librilight zusammengestellt wurde. In den meisten Zeit. In seinen Versuchen sagte das Team, dass Vall-E die Stimme in der Probe von drei Sekunden braucht, um einer der Stimmen aus ihren Trainingsdaten sehr zu ähneln, um ein überzeugendes Ergebnis zu erzielen.
Das Team präsentiert jetzt seine Arbeit, indem er spezifische Beispiele der Software in Aktion auf einer Github -Seite veröffentlicht. Jeder bietet einen dreiköpfigen Clip der Stimme eines Sprechers, der zufälligen Text liest, und eine "Grundwahrheit", die ein aufgezeichnetes Beispiel dafür ist. Anschließend bieten sie eine "Basis" -Anzeichnung, um zu zeigen.
Obwohl die Ergebnisse nicht perfekt sind, zeigen sie einige sehr überzeugende Beispiele, bei denen die maschinellgenerierte Sprache schockierend menschlich klingt. Die Forscher fügen auch hinzu, dass die Software neben der Nachahmung der Beugung und der Emotion auch die Umgebung replizieren kann, in der das Basis-Audio für beispielsweise aufgezeichnet wird, sodass es so klingt, als würde jemand im Freien sprechen, in einem Echo-Raum oder telefonieren.
Das Forschungsteam schließt ihre Arbeit mit der Begründung, die Anzahl der Trainingsdaten zu erhöhen, um das Modell zu verbessern. Aber vorerst hat Microsoft auch davon abgehalten, die neue Software für Entwickler oder die breite Öffentlichkeit zur Verfügung zu stellen, um die Möglichkeit zu testen, weil sie Menschen ausüben oder für schändliche Zwecke verwendet werden können. AE0FCC31AE342FD3A1346EBB1F342FCB
"Da Vall-E die Sprache synthetisieren könnte, die die Sprecheridentität aufrechterhält, kann es potenzielle Risiken beim Missbrauch des Modells mit sich bringen, z. "Um solche Risiken zu mildern, ist es möglich, ein Erkennungsmodell zu erstellen, um zu unterscheiden, ob ein Audioclip von Vall-E synthetisiert wurde. Wir werden auch Microsoft AI -Prinzipien in die Praxis umsetzen, wenn wir die Modelle weiterentwickeln."