Stammtisch 2023-10-13: Unterschied zwischen den Versionen

Aus lugvswiki
Zur Navigation springenZur Suche springen
(Email Inhalt hinzu)
K (Anhang bearbeitet)
Zeile 22: Zeile 22:
 
===Speech to text===
 
===Speech to text===
 
* Bertram ist auf der Suche nach einer Software, die gesprochene Sprache in Text umwandelt.
 
* Bertram ist auf der Suche nach einer Software, die gesprochene Sprache in Text umwandelt.
* Ulf empfiehlt KDEnlive mit Whisper [https://gnulinux.ch/whisper-eine-freie-speech-to-text-engine], [https://www.heise.de/news/Kdenlive-Videoeditor-mit-Whisper-Transkription-verschachtelter-Zeitleiste-8985264.html]
+
* Ulf empfiehlt Whisper [https://gnulinux.ch/whisper-eine-freie-speech-to-text-engine GNU/Linux.ch Artikel zum CLI] sowie [https://www.heise.de/news/Kdenlive-Videoeditor-mit-Whisper-Transkription-verschachtelter-Zeitleiste-8985264.html Heise Artikel integriert in KDEnlive]
 
* Ulf hat eine Befehlszeile im Chat beigetragen, mit der man Whisper steuert:
 
* Ulf hat eine Befehlszeile im Chat beigetragen, mit der man Whisper steuert:
 
  whisper --model_dir whisperenv/models --language de --model large-v2 --device gpu --output_dir out --output_format all ~/Videos/[Dateiname].mp4
 
  whisper --model_dir whisperenv/models --language de --model large-v2 --device gpu --output_dir out --output_format all ~/Videos/[Dateiname].mp4
* plocki weist auf [https://alphacephei.com/vosk/ VOSK] hin.
+
* plocki weist auf die Alternative [https://alphacephei.com/vosk/ VOSK] hin.
 
* Gemeinsam leiten die Anwesenden - vor allem Ulf und plocki - Bertram an, wie er Whisper bei sich installiert.  
 
* Gemeinsam leiten die Anwesenden - vor allem Ulf und plocki - Bertram an, wie er Whisper bei sich installiert.  
** Zuerst fehlt bei Bertram auf dem Rechner Python3[https://www.python.org/] + PIP[https://pypi.org/project/pip/] und muss nachinstalliet werden.
+
** Zuerst fehlt bei Bertram auf dem Rechner [https://www.python.org/ Python3] + [https://pypi.org/project/pip/ PIP] und müssen nachinstalliert werden.
 +
sudo apt install python3-pip
 
** Dann muss das whisper-Paket installiert werden
 
** Dann muss das whisper-Paket installiert werden
 
  mkdir whisper
 
  mkdir whisper
Zeile 42: Zeile 43:
 
** Die letzte Frage ist nur, wo bleibt die Ausgabe von whisper. Es wird vermutet, dass sie im selben Verzeichnis wie das Video auftauchen wird, aber erst am Ende des Prozesses.
 
** Die letzte Frage ist nur, wo bleibt die Ausgabe von whisper. Es wird vermutet, dass sie im selben Verzeichnis wie das Video auftauchen wird, aber erst am Ende des Prozesses.
 
** Es wird vereinbart, dass Bertram seinen Rechner nun über Nacht laufen lässt und morgen früh schaut, ob er die Datei mir der Endung .srt findet.
 
** Es wird vereinbart, dass Bertram seinen Rechner nun über Nacht laufen lässt und morgen früh schaut, ob er die Datei mir der Endung .srt findet.
 +
* Nachtrag
 +
** Whisper erzeugt folgende Dateien:
 +
*** [Dateiname].[ffmpeg bekanntes Videoformat]: Die Quelldatei selbst
 +
*** [Dateiname].json: Die erkannte Sprache im JSON format
 +
*** [Dateiname].srt: In der 1. Zeile die Abschnitt Nummer (fortlaufend), 2. Zeile das Zeitintervall in der Quelldatei, 3. Zeile der Text und 4. Zeile leer -> danach kommt der nächste Abschnitt
 +
*** [Dateiname].tsv: Tab separierte Tabelle mit ähnlicher info wie .srt nur in anderer Formatierung
 +
*** [Dateiname].txt: Reiner Text ohne metainformationen
 +
*** [Dateiname].vtt: WEBVTT in der ersten Zeile mit ähnlicher Info wie .srt und .tsv nur ohne Abschnitt Nummer
 +
** Mehr infos zu Whisper auch auf der [https://openai.com/research/whisper Projektseite]
 +
  
 
====Erstes Fazit====
 
====Erstes Fazit====
Zeile 58: Zeile 69:
 
===Off-Topics===
 
===Off-Topics===
 
* Es waren wieder einiges an Abschweifungen dabei, die keinen Eingang in das Protokoll gefunden haben. Die einhellige Meinung ist, dass man das besser weg lässt.
 
* Es waren wieder einiges an Abschweifungen dabei, die keinen Eingang in das Protokoll gefunden haben. Die einhellige Meinung ist, dass man das besser weg lässt.
 
 
== Info von Ulf muss noch eingarbeitet werden==
 
 
> über Lug-vs:
 
> > kennt jemand eine freie Software, die Sprache in Text umwandeln kann?
 
> Ja
 
> https://gnulinux.ch/whisper-eine-freie-speech-to-text-engine
 
> https://www.heise.de/news/Kdenlive-Videoeditor-mit-Whisper-Transkription-verschachtelter-Zeitleiste-8985264.html
 
 
Auf dem Treffen gestern [1], haben wir Bertram geholfen whisper einzurichten.
 
 
Dazu musste er erst mal die Programmierumgebung Python und den Projekt Installer
 
für Python (= PIP) mit
 
 
$ sudo apt install python3-pip
 
 
sowie mit einem weiteren Paket welches aber auch in der Fehlermeldung die
 
Installationsanweisung enthalten hatte, konnte er mit
 
 
$ mkdir whisper
 
$ cd whisper
 
$ python3 -m venv whisperenv
 
$ source whisperenv/bin/activate
 
$ pip install git+https://github.com/openai/whisper.git
 
 
Dann nach einigen downloads whisper endlich installieren.
 
 
Er hat dann im Video verzeichnis ein Vortrag im MP4 format decodieren lassen.
 
Wir haben uns gefragt ob die Ausgabe auch gespeichert wird. Die Antwort ist ja,
 
allerdings erst am Schluss
 
 
Ich habe das mal auf diesen Vortrag [2] gemacht, 
 
$ whisper 2018-05-30_-_wie_tickt_mein_desktop_-_marius.mp4
 
 
Erzeugt bei mir (siehe auch Anhang):
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.json
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.mp4
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.srt
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.tsv
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.txt
 
2018-05-30_-_wie_tickt_mein_desktop_-_marius.vtt
 
 
Mehr infos zu Whisper auch auf der Projektseite [3]
 
 
[1] https://lug-vs.org/lugvswiki/index.php/Stammtisch_2023-10-13#Speech_to_text
 
[2] https://lugbs.de/videos/2018/start#vortrge-videos-2018-wieticktmeindesktop-marius
 
[3] https://openai.com/research/whisper
 
 
 
 
 
 
  
  
 
----
 
----
 
Zurück zur [[Archiv|Übersicht]]
 
Zurück zur [[Archiv|Übersicht]]

Version vom 15. Oktober 2023, 15:57 Uhr

13.10.2023 - 20:00 Uhr, Online-Stammtisch auf https://bbb.ch-open.ch/rooms/ulf-nm2-y26/join

wöchentlicher onlineStammtisch

Auf dem Stammtisch Mai 2020 beschlossener wöchentlicher Stammtisch jeden Freitag ab 20:00 Uhr anstelle des monatlichen Stammtisches im realen Leben.


Anwesende

  • Bertram
  • Jos
  • Julian
  • plocki
  • Ulf
  • Uwe S. (stippi)

Themen

Vortragsausfall bei der VHS

  • Ulf hat mit dem Leiter der VHS-Baar telefoniert und mit ihm vereinbart, dass wir spätestens am Montag der betreffenden Woche bescheid bekommen, ob die Kurse stattfinden.
  • Es wird lebhaft darüber diskutiert, wie man künftig mit dem Thema Vorträge und die Werbung dafür umgehen soll.

Speech to text

whisper --model_dir whisperenv/models --language de --model large-v2 --device gpu --output_dir out --output_format all ~/Videos/[Dateiname].mp4
  • plocki weist auf die Alternative VOSK hin.
  • Gemeinsam leiten die Anwesenden - vor allem Ulf und plocki - Bertram an, wie er Whisper bei sich installiert.
    • Zuerst fehlt bei Bertram auf dem Rechner Python3 + PIP und müssen nachinstalliert werden.
sudo apt install python3-pip
    • Dann muss das whisper-Paket installiert werden
mkdir whisper
cd whisper
python3 -m venv whisperenv
source whisperenv/bin/activate
pip install git+https://github.com/openai/whisper.git
  • Nach der Installation ist vor der Installation:
    • Es werden zahlreiche Pythonmodule nachinstalliert und die Installation von Whisper ist eine ziemlich herausfordernde Aufgabe vor allem an den Plattenplatz des Rechners von Bertram.
    • Am Ende, als die Installation abgeschlossen war, versucht Bertram die erste Videodatei zu transkribieren
whisper [Dateiname].mp4
  • Die Anwendung:
    • Der Rechner ist schwer am Arbeiten, so dass Bertram auch immer schwerer zu verstehen ist.
    • Die letzte Frage ist nur, wo bleibt die Ausgabe von whisper. Es wird vermutet, dass sie im selben Verzeichnis wie das Video auftauchen wird, aber erst am Ende des Prozesses.
    • Es wird vereinbart, dass Bertram seinen Rechner nun über Nacht laufen lässt und morgen früh schaut, ob er die Datei mir der Endung .srt findet.
  • Nachtrag
    • Whisper erzeugt folgende Dateien:
      • [Dateiname].[ffmpeg bekanntes Videoformat]: Die Quelldatei selbst
      • [Dateiname].json: Die erkannte Sprache im JSON format
      • [Dateiname].srt: In der 1. Zeile die Abschnitt Nummer (fortlaufend), 2. Zeile das Zeitintervall in der Quelldatei, 3. Zeile der Text und 4. Zeile leer -> danach kommt der nächste Abschnitt
      • [Dateiname].tsv: Tab separierte Tabelle mit ähnlicher info wie .srt nur in anderer Formatierung
      • [Dateiname].txt: Reiner Text ohne metainformationen
      • [Dateiname].vtt: WEBVTT in der ersten Zeile mit ähnlicher Info wie .srt und .tsv nur ohne Abschnitt Nummer
    • Mehr infos zu Whisper auch auf der Projektseite


Erstes Fazit

  • Whisper ist eine KI-Anwendung[1], die mit erstaunlichen Fähigkeiten in der Lage ist die Sprache in einem Video zu erkennen, sie in reinen Text umzuwandeln und entweder auf der Textkonsole auszugeben und / oder sie in einer Datei abzuspeichern.
    • Welches Format die auszugebende Datei dabei haben soll ist genauso beeinflussbar wie die Art und Weise wie Whisper dabei vorgehen soll: Welches Rechenwerk (GPU, CPU) soll verwendet werden, welche Sprache kann Whisper bei der vorliegenden Videodatei erwarten. Wenn man das nicht angibt versucht die KI es alleine herauszufinden und ist dabei treffsicher. Auch der Ausgabepfad kann mit angegeben werden, falls man das Ergebnis an einer anderen Stelle haben möchte und natürlich ob das ganze als .PDF, .TXT oder sonst einem Format ausgegeben werden soll.

Allgemeiner Hinweis

  • Für die Texterkennung mit Whisper ist es sinnvoll, dass in der Quelle der Text gesprochen und nicht gesungen wird - soweit ist die KI noch nicht, dass sie das auch zuverlässig erkennt.

Kritik

  • Bertram hätte sich vielleicht nicht gleich das mächtigste aller Videos auf seiner Festplatte, das rund eine Stunde Spielzeit aufweist, aussuchen sollen, dann wäre man schneller zu einem Ergebnis gekommen.
  • Bei der ganzen Aktion zeigen sich aber auch wieder Schwächen beim grundlegenden Verständnis im Umgang mit Linux, speziell auf der Kommandozeile. Was ist eine Tab-Taste und wie wird sie verwendet.
  • Der Umgang mit Dateien und Ordnern, der Suche und dem Anzeigen von Inhalten von Dateien und Verzeichnissen, die plocki für wert hält in einem Einsteigerseminar intensiv zu beleuchten.
  • Befehle wie ls, cd, mkdir, find und viele weitere sind überhaupt nicht bekannt oder können entweder gar nicht oder nicht sinnvoll eingesetzt werden. Ein Defizit, was plocki für dringend zu beheben ansieht. Er bemängelt aber auch, das vielfach in Anleitungen davon ausgegangen wird, dass ein Benutzer diese Grundlagen bereits im Schlaf beherrscht und deshalb an wichtigen Stellen die Hinweise auf die Verwendung der entsprechenden Befehle entweder komplett fehlen oder nur beiläufig erwähnt werden, ohne deren detailierten Aufruf zu beschreiben. "Wie soll eine Anfängerin das wissen?"

Off-Topics

  • Es waren wieder einiges an Abschweifungen dabei, die keinen Eingang in das Protokoll gefunden haben. Die einhellige Meinung ist, dass man das besser weg lässt.



Zurück zur Übersicht