RSS
Unterstützung

WMZ: Z087754155981 (USD)
WME: E110509803261 (EUR)

WebMoney

Balabolka Dienstprogramm für die Online-Text-zu-Sprache-Nutzung

The command line application allows to use online text-to-speech services: text files or subtitles can be converted to audio files. The utility can be used for testing purposes: it will help you to choose a cloud computing service that satisfies your needs. The separate application for Yandex SpeechKit is available for downloading, because Yandex is the Russian IT company with close government ties.

Utility for Online Text-To-Speech Using

Online-Dienste mit Sprachtechnologien:

  • Google Cloud Text-to-Speech;
  • Amazon Polly;
  • Baidu Text-to-Speech;
  • CereVoice Cloud;
  • IBM Watson Text-to-Speech;
  • Microsoft Azure;
  • Naver Text-to-Speech;
  • Youdao Text-to-Speech;
  • Yandex SpeechKit.

Datei Download (Online-TTS-Dienstprogramm)


Größe: MB
 
Version: Änderungsliste
 
Lizenzart: Freeware
 
Plattformen:
Command Line Utility for Yandex SpeechKit Using: Download ( MB)
The program converts text or subtitles to audio files by using of the Yandex service.
To perform operations via the Yandex API, it is necessary to authenticate using an API-key.



Befehlszeilen-Anwendung

Die Konsolenanwendung verwaltet verschiedene Befehlszeilenparameter, um zu ermöglichen, einen Text laut vorzulesen oder als Audio-Datei zu speichern. Die Befehlszeilen-Optionen verwenden die Syntax "bal4web [Optionen ...]", alle Parameter müssen durch ein Leerzeichen getrennt werden. Die Optionen können in beliebiger Reihenfolge in der Befehlszeile aufgeführt werden, solange sie mit ihren zugehörigen Parametern verbunden sind. Verwenden Sie die "bal4web -?" Befehlszeile, um Hilfe bezüglich Syntax und Parameter der Kommandozeile zu erhalten.


-s Dienstname
Legt den Namen des Online-TTS-Dienstes fest ("google" oder "g", "amazon" oder "a", "baidu" oder "b", "cerevoice" oder "c", "ibm" oder "i", "microsoft" oder "m", "naver" oder "n", "youdao" oder "y"). Die Voreinstellung ist "google".
-l Sprache
Legt den Sprachnamen für den Online-TTS-Dienst fest. Der Name ist eine Kombination aus einem aus zwei Buchstaben bestehenden ISO 639-Kulturcode in Kleinbuchstaben, der einer Sprache zugeordnet ist, und einem aus zwei Buchstaben bestehenden ISO 3166-Subkulturcode in Großbuchstaben, der einem Land oder einer Region zugeordnet ist.
Zum Beispiel: de-DE, fr-FR, pl-PL. Die Standardeinstellung ist "en-US".
-g Geschlecht
Legt das Geschlecht für den Online-TTS-Dienst fest (falls unterstützt). Die verfügbaren Werte: "female" oder "f" (weiblich), "male" oder "m" (männlich). Der Standardwert ist nicht definiert. Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Google TTS, IBM Watson, Microsoft Azure, Naver TTS unterstützt.
-n Sprecher
Legt den Sprachnamen für den Online-TTS-Dienst fest (falls unterstützt). Der Standardwert ist nicht definiert. Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, IBM Watson, Microsoft Azure, Naver TTS unterstützt.
-r Sprechgeschwindigkeit
Legt die Rate der synthetisierten Sprache fest (falls unterstützt). Der Standardwert ist "1.0" (durchschnittliche menschliche Sprechgeschwindigkeit).
Für Google TTS und Microsoft Azure reichen die Ratenwerte von "0.1" bis "3.0".
Für Naver TTS reichen die Ratenwerte von "0.5" bis "1.5".
Für Amazon Polly reichen die Ratenwerte von "0.2" bis "2.0".
Für IBM Watson TTS reichen die Ratenwerte von "0.3" bis "2.0".
-p Zahl
Bestimmt die Tonhöhe in einem Bereich von -20 bis 20 (falls unterstützt). Der Standardwert ist 0.
Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Google Cloud TTS, IBM Watson, Microsoft Azure.
-v Zahl
Bestimmt das Volumen in einem Bereich von 0 bis 200 (der Standardwert ist 100).
-m
Druckt die Liste der unterstützten Sprachen (Geschlechter und Stimmnamen, falls verfügbar) für den Online-TTS-Dienst.
-f Dateiname
Bestimmt den Namen der Eingabe-Textdatei.
-fl Dateiname
Bestimmt den Namen der Textdatei mit der Liste der Eingabedateien (ein Dateiname pro Zeile).
-w Dateiname
Bestimmt den Namen der Ausgabe-Datei im WAV-Format. Wenn diese Option angegeben ist, wird eine Audio-Datei erstellt. Sonst wird der Text laut vorgelesen.
-c
Verwendet die Texteingabe aus der Zwischenablage.
-t Textzeile
Die Texteingabe kann von der Befehlszeile verwendet werden.
-i
Verwendet die Texteingabe von STDIN.
-o
Schreibt Tondaten auf STDOUT. Wenn diese Option gewählt ist, wird die Option -w ignoriert.
--encoding Kodierung oder -enc Kodierung
Bestimmt die Kodierung für die Texteingabe ("ansi", "utf8" oder "unicode"). Die Standardeinstellung ist "ansi".
--silence-begin Zahl oder -sb Zahl
Legt die Länge der Stille am Anfang der Audio-Datei fest (in Millisekunden). Der Standardwert ist 0.
--silence-end Zahl oder -se Zahl
Legt die Länge der Stille am Ende der Audio-Datei fest (in Millisekunden). Der Standardwert ist 0.
-ln Zahl
Wählt eine Zeile aus einer Textdatei mit Hilfe einer Zeilennummer. Die Zeilennummerierung beginnt bei "1". Ein Intervall von Zahlen kann verwendet werden, um mehr als eine Zeile auszuwählen (beispielsweise "26-34"). Die Befehlszeile kann ein paar Optionen enthalten -ln.
-e Zahl
Legt die Länge der Pausen zwischen Sätzen fest (in Millisekunden). Der Wert sollte kleiner als 5000 sein. Wenn die Option nicht angegeben ist, verwendet der Dienst die Standardpausen zwischen den Sätzen. Dieser Parameter wird nur von Microsoft Azure unterstützt.
-d Dateiname
Verwendet das Wörterbuch für die Aussprache-Korrektur (*.BXD, *.REX oder *.DIC). Die Befehlszeile kann ein paar Optionen enthalten -d.
-lrc
Erstellt eine LRC-Datei. Der Liedtext wird mit der Sprache in der ausgegebenen Audiodatei synchronisiert.
-srt
Erstellt eine SRT-Datei. Untertitel werden mit der Sprache in der ausgegebenen Audiodatei synchronisiert.
-sub
Text wird als Untertitel verarbeitet. Diese Option kann nützlich sein, wenn die Optionen -i oder -c festgelegt wurden.
-host Hostname
Legt den Hostnamen des Proxy-Servers fest.
-port Zahl
Legt die Portnummer des Proxy-Servers fest.
-fr Zahl
Legt die Ausgabe-Audio-Abtastfrequenz in kHz fest (8, 11, 16, 22, 24, 32, 44, 48). Wenn die Option nicht angegeben ist, wird der Standardwert für den ausgewählten Dienst verwendet.
--ignore-square-brackets oder -isb
Text in [eckigen Klammern] ignorieren.
--ignore-curly-brackets oder -icb
Text in {geschweiften Klammern} ignorieren.
--ignore-angle-brackets oder -iab
Text in <Winkelklammern> ignorieren.
--ignore-round-brackets oder -irb
Text in (runden Klammern) ignorieren.
--ignore-comments oder -ic
Kommentare im Text ignorieren. Einzeilige Kommentare beginnen mit // und werden bis zum Ende der Zeile fortgesetzt. Mehrzeilige Kommentare beginnen mit /* und enden mit */.
-dp
Anzeige von Fortschrittsinformationen in einem Konsolenfenster.
-cfg Dateiname
Legt den Namen der Konfigurationsdatei mit den Befehlszeilenoptionen fest (eine Textdatei, in der jede Zeile eine Option enthält). Wird die Option nicht angegeben, wird die Datei bal4web.cfg verwendet, die sich im selben Ordner wie das Dienstprogramm befindet.
-h
Druckt die Liste der verfügbaren Befehlszeilen-Optionen.
--lrc-length Zahl
Bestimmt die maximale Länge der Textzeilen für die LRC-Datei (in Zeichen).
--lrc-fname Dateiname
Bestimmt den Namen der LRC-Datei. Die Option kann nützlich sein, wenn die Option -o angegeben ist.
--lrc-enc Kodierung
Bestimmt die Kodierung für die LRC-Datei ("ansi", "utf8" oder "unicode"). Die Standardeinstellung ist "ansi".
--lrc-offset Zahl
Bestimmt die Zeitverschiebung für die LRC-Datei (in Millisekunden).
--lrc-artist Textzeile
Bestimmt den ID-Tag für die LRC-Datei: Künstler.
--lrc-album Textzeile
Bestimmt den ID-Tag für die LRC-Datei: Album.
--lrc-title Textzeile
Bestimmt den ID-Tag für die LRC-Datei: Titel.
--lrc-author Textzeile
Bestimmt den ID-Tag für die LRC-Datei: Autor.
--lrc-creator Textzeile
Bestimmt den ID-Tag für die LRC-Datei: Ersteller der LRC-Datei.
--srt-length Zahl
Bestimmt die maximale Länge der Textzeilen für die SRT-Datei (in Zeichen).
--srt-fname Dateiname
Bestimmt den Namen der SRT-Datei. Die Option kann nützlich sein, wenn die Option -o angegeben ist.
--srt-enc Kodierung
Bestimmt die Kodierung für die SRT-Datei ("ansi", "utf8" oder "unicode"). Die Standardeinstellung ist "ansi".
--raw
Der Ausgang ist RAW-Format PCM; die Audiodaten enthalten nicht den WAV-Header. Diese Option wird zusammen mit der Option -o verwendet.
--ignore-length oder -il
Ignoriert die Länge der Daten im WAV-Header. Diese Option wird zusammen mit der Option -o verwendet.
--wss
Legt die Verwendung des WebSocket-Protokolls für Microsoft Azure fest. Es ermöglicht die Verbesserung der Tonqualität von Audiodateien (24 kHz anstelle von 16 kHz). Die Option wird ignoriert, wenn der Abonnementschlüssel für die Microsoft Azure Cognitive Services definiert ist. Verwenden Sie die Option -m, um zu prüfen, ob eine Stimme das WebSocket-Protokoll unterstützt.
--sub-format Textzeile
Legt das Format der Untertitel fest ("srt", "lrc", "ssa", "ass", "smi" oder "vtt"). Wenn diese Option nicht angegeben ist, wird das Format anhand der Dateiendung bestimmt.
--sub-fit oder -sf
Erhöht automatisch die Sprechgeschwindigkeit, um sie an Zeitintervalle anzupassen (wenn das Programm Untertitel in eine Audiodatei konvertiert). Dieser Parameter wird von den Diensten Amazon Polly, CereProc TTS, Google TTS, Microsoft Azure und Naver TTS unterstützt.
 

--aws-keyid Textzeile oder -ak Textzeile
Legt die AWS-Zugangsschlüssel-ID für den Amazon Polly fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--aws-secret Textzeile oder -as Textzeile
Legt den geheimen AWS-Zugangsschlüssel für den Amazon Polly fest.
--aws-region Textzeile oder -ar Textzeile
Legt die AWS-Region für den Amazon Polly fest.
--crv-email Textzeile oder -ce Textzeile
Legt die E-Mail-Adresse fest, die bei der Registrierung auf der CereProc-Website verwendet wird. Diese Informationen sind für die Autorisierung der CereVoice Cloud API erforderlich. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--crv-pwd Textzeile oder -cp Textzeile
Legt das Passwort fest, das bei der Registrierung auf der CereProc-Website verwendet wird. Diese Informationen sind für die Autorisierung der CereVoice Cloud API erforderlich. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--gc-apikey Textzeile oder -gk Textzeile
Legt die API-Schlüssel-ID für die Google Cloud fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--ms-apikey Textzeile oder -mk Textzeile
Legt den Abonnementschlüssel für die Microsoft Azure Cognitive Services fest. Es wird empfohlen, diese Daten anzuwenden, wenn Sie sie haben.
--ms-region Textzeile oder -mr Textzeile
Legt die Abonnementregion für die Microsoft Azure Cognitive Services fest.


Befehlszeilen-Beispiele

Erstellen Sie die Textdatei SPRACHEN.TXT mit der Liste aller unterstützten Sprachen und Geschlechter für den Dienst Google TTS:

bal4web -s Google -m > Sprachen.txt



Text aus BOOK.TXT in Sprache umwandeln und als BOOK.WAV speichern:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l en-US -g female



Untertitel in Sprache umwandeln und als MOVIE.WAV speichern:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l de-DE -n Conrad -r 1.1



Beispiel für die Verwendung zusammen mit LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Beispiel für die Verwendung zusammen mit OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l en-US -o -il | oggenc2 --ignorelength - -o d:\book.ogg




Konfigurationsdatei

Die Befehlszeilen-Optionen können als Konfigurationsdatei "bal4web.cfg" im Ordner der Konsolen-Anwendung gespeichert werden.

Beispiel für eine Konfigurationsdatei:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Das Programm kann Optionen von der Konfigurationsdatei und der Kommandozeile kombinieren.




Lizenzart

Sie können Software für nichtkommerzielle Zwecke verwenden und vertreiben. Für die kommerzielle Nutzung oder den Vertrieb benötigen Sie die Genehmigung des Urheberrechtsinhabers.