Der Stand der Linux-Spracherkennung

Ich verbringe viel Zeit damit, nach Artikeln zu suchen, und oft denke ich über das Thema eines Artikels nach, wenn ich zum Bahnhof gehe oder generell unterwegs bin.

Als ich eines Abends die 1,5 Meilen zum Bahnhof von meiner Arbeit entfernte, dachte ich: "Es wäre nicht gut, wenn ich aufnehmen könnte, was ich sagen wollte, und es dann automatisch in eine Textdatei transkribieren würde, die ich später bearbeiten und formatieren kann." .

Ich habe viele Stunden damit verbracht, die verschiedenen Optionen für die Spracherkennung und das Diktieren zu untersuchen, einschließlich der direkten Aufnahme über ein Mikrofon mit der Diktiersoftware in Linux, der Aufnahme der Datei in das MP3- oder WAV-Format und deren Konvertierung über die Befehlszeile sowie die Verwendung von Chrome und Android-Anwendungen.

Dieser Artikel hebt meine Ergebnisse nach Tagen harter Arbeit hervor.

Linux-Optionen

Die Suche nach Diktat- und Spracherkennungssoftware in Linux ist nicht so einfach, wie es sein könnte, und die verfügbaren Optionen sind nicht so clever.

Diese Wikipedia-Seite enthält eine Liste möglicher Optionen, darunter CMU Sphinx, Julius und Simon.

Ich verwende SparkyLinux, das im Moment auf Debian Testing basiert, und ich kann Ihnen sagen, dass das einzige Spracherkennungspaket, das in den Repositories verfügbar ist, Sphinx ist.

Meine nativen Linux-Programme waren PocketSphinx, mit dem ich WAV-Dateien in Text konvertierte, und Freespeech-VR, eine Python-Anwendung, mit der Sie direkt über ein Mikrofon aufnehmen können.

Ich habe auch ein paar Chrome-Apps ausprobiert, darunter VoiceNote II und Dictanote.

Schließlich habe ich die Android-Apps "Diktieren und E-Mail" und "Talk and Talk-Diktat" ausprobiert.

Freespeech-VR

Freespeech-VR ist in den Standard-Repositorys nicht verfügbar. Ich habe die Dateien von hier heruntergeladen.

Nach dem Herunterladen und Extrahieren des Inhalts der ZIP-Datei öffnete ich ein Terminal und navigierte zu dem Ordner, in den die Dateien extrahiert wurden. Ich habe den folgenden Befehl eingegeben, um Freespeech-vr zu öffnen.

Sudo Python Freespeech-vr

Ich habe einen Kopfhörer mit einem recht anständigen Mikrofon und einem ziemlich klaren Akzent aus dem Süden Englands.

Der folgende Text wurde im Freespeech-vr-Fenster angezeigt:

Willkommen bei der Einheitshunde des Ergebnisses Heute müssen Sie sicherstellen, wie verwaltete Tests durchgeführt werden müssen. Ein Test muss ausgeführt werden, wenn ein Text verwendet wird. Die Sprache, in der ich war, war jeweils nur in der Hoffnung, zu bleiben und die Mittel eines Hühners zu sein Das Ea, wenn mein Name das nächste ofch anruft Telefon Diese Datei In Kürze reicht ein Telefon zu Hands Space die Sphinx Going Das ist kein Telefon. A wird trainiert und mit Hilfsmitteln verwendet. Sprechen Sie, wenn Sie fertig sind story A Und mit einem durch das Wann ist es sehr erfolgreich, wie dieses Linux war

Ich möchte jetzt nur sagen, dass dies nicht die Unit of Dogs-Website ist, und ich habe zu keinem Zeitpunkt etwas mit Golden Hühnern zu tun. Ich habe eigentlich versucht, den Prozess der Verwendung von Spracherkennungssoftware zu beschreiben.

Ich habe die Software ein paar Mal mit variierender Tonhöhe und Geschwindigkeit ausprobiert, aber die Genauigkeit war schlecht.

PocketSphinx

PocketSphinx kann eine WAV-Datei über die Befehlszeile in Text konvertieren. PocketSphinx ist über die Debian-Repositorys verfügbar und sollte für die meisten Distributionen verfügbar sein.

Das Hauptproblem, das ich mit PocketSphinx gefunden habe, ist, dass Sie praktisch einen Abschluss in den Bereichen Spracherkennung, Sprachdateien, Wörterbücher und wie das System trainiert werden müssen.

Nach der Installation von PocketSphinx sollten Sie die CMU Sphinx-Website besuchen und so viele Informationen wie möglich lesen. Sie müssen auch die folgende Modelldatei herunterladen.

US English Generic Language Model

(Wenn Sie kein englischer Muttersprachler sind, wählen Sie das Sprachmodell, das für Sie geeignet ist).

Die Dokumentation für PocketSphinx und Sphinx im Allgemeinen ist für Laien schwer zu verstehen, aber aus dem, was ich machen könnte, werden Wörterbuchdateien verwendet, um eine Liste möglicher Wörter bereitzustellen, und Sprachmodelle haben eine Liste möglicher Aussprachen.

Um PocketSphinx zu testen, habe ich eine eigene Stimme verwendet, einen Ausschnitt aus Al Pacino in "The Devils Advocate" und einen Ausschnitt aus "Morgan Freeman". Es ging darum, verschiedene Stimmen zu versuchen, und für mich gibt es niemanden, der eine Geschichte so klar wie Morgan Freeman erzählen kann und niemand eine Linie wie Al Pacino liefert.

Damit PocketSphinx funktioniert, benötigt es eine WAV-Datei und muss ein bestimmtes Format haben. Wenn die Datei im MP3-Format vorliegt, konvertieren Sie sie mit dem Befehl ffmpeg in das WAV-Format:

ffmpeg -i Eingabedateiname.mp3 -acodec pcm_s16le -ar 16000 Ausgabedateiname.wav

Um PocketSphinx auszuführen, verwenden Sie den folgenden Befehl:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-de-us.lm 2> voice2.log

pocketsphinx_continuous nimmt eine WAV-Datei und konvertiert sie in Text.

Im obigen Befehl wird pocketsphinx empfohlen, eine Wörterbuchdatei mit dem Namen "/usr/share/pocketsphinx/model/lm/de_US/cmu07a.dic" mit dem Sprachmodell "cmusphinx-5.0-de-us.lm" zu verwenden. Die Datei, die in Text konvertiert wird, heißt voice2.wav (eine Aufnahme, die ich mit meiner Stimme aufgenommen habe). Schließlich fügt die 2> alle ausführlichen Ausgaben, die Sie nicht unbedingt benötigen, in einer Datei namens voice2.log ab. Die tatsächlichen Ergebnisse des Tests werden im Terminalfenster angezeigt.

Die Ergebnisse meiner Stimme lauten wie folgt:

willkommen zum nächsten ungefähr na ja diese woche thema darüber welche erkennungssoftware in einer minute

Die Ergebnisse sind nicht so schrecklich wie bei Freespeech-vr, aber immer noch nicht wirklich brauchbar. Ich habe dann versucht, PocketSphinx mit Al Pacino zu verwenden, aber dies ergab überhaupt keine Ergebnisse.

Schließlich habe ich versucht, Morgan Freemans Stimme aus dem Film "Bruce Almighty" zu verwenden, und hier sind die Ergebnisse:

000000000: wir werden auf sie000000001: sind alle so hart ja der Tag an dem gerade jetzt ja das ist das, was wir am meisten gelebt haben000000002: Im Aufzug ist der Schlüssel für ein bisschen Baseball-Uhr oder wissen Sie, was Sie in Ihrem Leben tun sollen000000003: welche werden sich erholen000000004: Sie haben es nicht geschrieben000000005: Sie haben mich gleich raus000000006: Sie müssen Regeln sein000000007: Ich habe dich erwartet000000008: und er erfuhr hier, dass dies eine Illustration war, die Weihnachtskiller000000009: Es stellt sich heraus, wie man o schreibt. Arsch, ich dachte, wenige tragen immer einen000000010: Wenn das Problem nicht vereint wird, wird er nicht das Gute sein. Ich bin der geschätzte in dem Moment, in dem wir nicht alles getan haben, von dem Sie glauben, dass ich in der Welt bin, und ich habe das gesehen000000011: Ein Vater, der es hat000000012: was ist daran viel000000013: ist das gegeben000000014: alles, was Ihnen nicht zu viel fällt000000015: direkt im Herbst000000016: halt nur für mich fest000000017: es ist unglücklich, wenn ich denke, dass sie eine haben werden, dass das alles, was auf einer geheiratet hat, nicht wir sind, ich mag die ungleiche Art und Weise

Mein Test kann kaum als wissenschaftlich betrachtet werden, und die Entwickler von PocketSphinx geben möglicherweise an, dass ich die Software nicht richtig verwende. Es gibt auch eine Technik namens Sprachtraining, mit der sich bessere Wörterbücher und Sprachdateien erstellen lassen.

Meine vorrangige Meinung ist jedoch, dass es für den normalen Alltagsgebrauch einfach zu schwierig ist.

VoiceNote II

VoiceNote II ist eine Chrome-App, die die Google-Spracherkennungs-API verwendet.

Wenn Sie Chrome- oder Chromium-Browser verwenden, können Sie VoiceNote II über den Web Store installieren.

Die Symbole in VoiceNote II sind auf eine seltsame Weise angeordnet, da Sie die Sprache unten im Fenster einstellen müssen. Die Schaltfläche Bearbeiten befindet sich ebenfalls unten. Die Schaltfläche Aufnahme befindet sich jedoch oben rechts.

Als erstes müssen Sie eine Sprache auswählen. Dies kann durch Klicken auf das Weltsymbol erreicht werden.

Um mit der Aufnahme zu beginnen, klicken Sie auf das Mikrofonsymbol und sprechen Sie in Ihr Mikrofon. Für das beste Ergebnis, das ich langsam sprechen konnte, war der Schlüssel, damit die Software mithalten konnte.

Die Ergebnisse waren nicht so toll, wie unten zu sehen ist:

Hallo und willkommen zu verbinden. Go-Travels.com heutige Artikel über die Konvertierung von Sprache in Text dunelm farrell recession 2008 als Conversions und es wurde die beste Methode gefunden, die ich gefunden habe, um das Addon von Sprachtext zu finden vs wählte in edinburgh Französisch Englisch Holen Sie sich die Zeit in United Kingdom Start bei Sea Microphon. Sie haben Ihren Text als Textdatei geschrieben, um den Erfolg zu erzielen. Dies ist ein sehr normaler englischer Akzent aus dem Süden Englands mit dem eigentlichen Dokument und Sie können für die Fehler sehen, die Sie für hörende Freunde machen

Dictanote

Dictanote ist eine weitere Chrome-App, die für Diktierzwecke verwendet werden kann und intuitiver wirkt, aber die Ergebnisse waren nicht besser als VoiceNote II.

Ich habe nur die Demoversion von Dictanote verwendet, die das Erstellen neuer Dokumente verhindert, aber Sie können über Text sprechen, der sich bereits im Editor befindet. Ich konnte die Spracherkennung testen, aber die Ergebnisse waren nicht besser als bei VoiceNote II. Daher habe ich mich nicht für die Pro-Version angemeldet.

Diktat und Post

"Dictation And Mail" ist eine Android-Anwendung, die die native Google-Spracherkennungs-API verwendet.

Die Ergebnisse von "Diktat und Post" waren viel besser als jedes andere Programm, das bisher versucht wurde.

Hallo Willkommen bei Linux Lifewire. Heute sprechen wir über die Umwandlung von Sound in Text

Der Trick bei "Diktat und Post" besteht darin, langsam zu sprechen und so gut wie möglich mit einem gleichmäßigen Akzent zu sprechen.

Nachdem Sie das Gespräch beendet haben, können Sie die Ergebnisse per E-Mail an sich selbst senden.

Sprechen Sie und sprechen Sie Diktat

Die andere Android-Anwendung, die ich ausprobierte, war "Talk And Talk Dictation".

Das Interface für diese App war das Beste vom Besten und die Spracherkennung funktionierte sehr gut. Nachdem ich das Diktat aufgenommen hatte, konnte ich die Ergebnisse auf verschiedene Arten teilen, auch per E-Mail.

Willkommen bei linux Go-Travels.com Heute sprechen wir über die Umwandlung von Sprache in Text

Wie Sie sehen können, ist der obige Text so klar, wie Sie vielleicht erwarten. Langsam reden ist der Schlüssel.

Zusammenfassung

Native Linux hat in Bezug auf die Spracherkennung und speziell das Diktieren einige Schritte zu gehen. Es gibt einige Anwendungen, die die Google Voice-API verwenden, sie sind jedoch noch nicht in den Repositorys aufgeführt.

Chrome OS-Anwendungen sind ein bisschen besser, aber die besten Ergebnisse wurden bei weitem mit meinem Android-Handy erzielt. Möglicherweise verfügt das Telefon über ein besseres Mikrofon, und daher bietet die Spracherkennungssoftware bessere Konvertierungsmöglichkeiten.

Damit die Spracherkennung wirklich brauchbar wird, muss sie intuitiver sein, wobei weniger Einstellungen erforderlich sind. Sie sollten sich nicht mit Sprachmodellen und Wörterbüchern herumschlagen müssen, um sie verständlich zu machen.

Ich weiß jedoch zu schätzen, dass die gesamte Kunst der Spracherkennung sehr herausfordernd ist, da jeder eine andere Stimme hat und es in einem Land so viele Dialekte von Region zu Region gibt, dass man sich jedoch keine Gedanken über die Hunderte von Sprachen machen muss, die in der ganzen Welt verwendet werden.

Meine Analyse ist daher, dass Spracherkennungssoftware noch in Arbeit ist.