Stammtisch 2024-12-06: Unterschied zwischen den Versionen

Aus lugvswiki
Zur Navigation springenZur Suche springen
Zeile 131: Zeile 131:
 
  <$>'''pipx install openai-whisper'''
 
  <$>'''pipx install openai-whisper'''
  
* Danach wählt man (am besten im Dateimanager ''Dolphin'' (KDE-Desktop ist Voraussetzung) die zu transkribierende Audio-Datei (oder auch Videodatei) aus.
+
# Jetzt wähle in Deinem Dateimanager &ndash; idealerweise ''Dolphin'' (KDE-Desktop ist Voraussetzung) &ndash; die zu transkribierende Audio-Datei (oder auch Videodatei) aus und öffne '''im''' Dateimanager (im Dolphin per Tastaturkürzel <'''F4'''>) die Konsole; das sieht in der Konsole des Dateimanagers dann so aus:<code>'''<$>PFAD/Audiodatei/Audiofile1.mp3'''</code>
* Tippe "whisper" in die Konsole
+
# Als nächstes tippe den Befehl "whisper" in die letzte Zeile der Konsole <code><$>PFAD/Audiodatei/Audiofile1.mp3 '''whisper'''</code>
* Nun öffnet man '''im''' Dateimanager (im Dolphin per Tastaturkürzel <'''F4'''>) die Konsole und zieht die zu bearbeitende Datei einfach in die Konsole hinter den Befehl "whisper"
+
# Nun ziehe die zu bearbeitende Datei einfach runter in die Konsole hinter den Befehl "whisper"; das sieht dann so aus: <code>''''''<$>PFAD/Audiodatei''' whisper </code>
* Man kann nun noch auswählen, mit welchem Sprachmodell man arbeiten möchte; es gibt diese:
+
# Man kann nun noch auswählen, mit welchem der fünf Sprachmodell man arbeiten möchte (siehe Box unten)
 +
# Entscheidet man sich für die beste Transkription (die dauert am allerlängsten, sollte aber die besten Ergebnisse bieten) fügt man hinter die in die Konsole (des Dateimanagers) gezogene Audiodatei noch folgendes ein:
 +
 
 +
 +
 
 
     Winzig (tiny): ca. 40 MiB
 
     Winzig (tiny): ca. 40 MiB
 
     Basis (base): ca. 70 MiB
 
     Basis (base): ca. 70 MiB

Version vom 7. Dezember 2024, 01:50 Uhr

06.12.2024 - 20:00 Uhr, Online-Stammtisch auf https://bbb.ch-open.ch/rooms/ulf-nm2-y26/join

wöchentlicher Online-Stammtisch

Auf dem Stammtisch Mai 2020 beschlossener wöchentlicher Stammtisch jeden Freitag ab 20:00 Uhr anstelle des monatlichen Stammtisches im realen Leben.


Anwesende

  • Holger
  • Ulf
  • Plocki
  • Bertram




Themen



Zeitstempel für Audiodateien erstellen und auf Homepage anbieten

Holger hat schon seit Jahren vor, die Audiodateien seiner Homepage Audio-Bibel NeÜ so zu bearbeiten, dass man sie nicht nur kapitelweise, sondern auch versweise abspielen kann.

Dazu muss aber erst mal ein Zeitstempel hinterlegt werden [Datei anhören, Zeit notieren, wenn Übergang von Vers 1 zu Vers 2 usw. und dies in einer (zum Beispiel) RSS-Datei hinterlegen].

Ulf hilft Holger, erst mal Tools zu finden – und auch eine Vorgehensweise zu überdenken, um dies dann dem interessierten Hörer anzubieten –; so könnte man zum Beispiel die Audiodateien auch über einen Podcast anbieten, dort die Suchfunktion nutzen, um dann ganz konkret in ein bestimmtes Buch, dort in ein bestimmtes Kapitel und dort wiederum zu einem (oder mehreren auzuwählenden) Vers(en) springen.

Hier findet sich eine Liste der in Frage kommenden Programme / Vorgehensweisen:

  1. mp3tag.de Community – Kapitelmarkierungen zu Audio- und Videodateien hinzufügen
  2. Wikihow.com: In Audacity Track-Marker einfügen --> wenig hilfreich, da Audacity-Version unbekannt und die beschriebene Vorgehensweise nur schwer nachvollzogen werden kann
  3. Podcaster.de Einfügen von Kapitelmarken
  4. forecast.fm – MP3 encoder with chapters --> wenig hilfreich; die empfohlene Anwendung läuft nur auf MacOS
  5. gnulinux.ch – Kapitelmarken im Podcast mit mp3chaps
  6. Das Kid3-Handbuch --> "Kid3" ist ein Editor für die Metadaten von Audiodateien (es gibt noch andere, zum Beispiel NTag, oder auch Wikipedia: Tag-Editor. Oder einfach die Suchmaschine bemühen ...
  • Ulf empfiehlt Holger zunächst den Metadaten-Editor Kid3 grafisch über den "Discover" (Softwareverwaltungstool unter openSUSE) zu installieren, was Holger umsetzt, während er seinen Bildschirm teilt.
  • Danach installiert er über die Konsole die Anwendung mp3chaps, was sich nicht ganz einfach für Holger gestaltet.
<$> pipx install mp3chaps.
INFO
ubuntuusers.de: pipx – Installation und Benutzung ist ein Hilfsprogramm, mit dem Python-Module, welche ausführbare Programme enthalten, installiert werden können.
Die pipx-Befehle werden ohne vorangestellten "sudo" (Systemadministrator) ausgeführt. Hier findet sich noch die Hilfe zu pipx: pipx --help
Das Programm 'pipx' kann in den folgenden Paketen gefunden werden:
  * python310-pipx [ Pfad: /usr/bin/pipx, Repository: base-oss ]
  * python311-pipx [ Pfad: /usr/bin/pipx, Repository: base-oss ]
  * python312-pipx [ Pfad: /usr/bin/pipx, Repository: base-oss ]

Wie wir der Konsolenausgabe entnehmen, werden drei verschiedene Repositorys für pipx angeboten; auf Ulfs Empfehlung wählt Holger das mittlere (phython311-pipx).

<$> sudo zypper in python311-pipx

Unter Holgers openSUSE Tumbleweed-Slowroll werden "automatisch" die argcomplete-Pakete mit installiert, welche beim Nutzen der Tab-Taste die Auto-Vervollständigungs-Funktion im pipx-Paket mit einbauen.

Nun kann das Paket mp3chaps installiert werden.

<$> pipx install mp3chaps

Und jetzt noch dem System erlauben, auf die ausführbaren Skripte (werden als symbolischer Link abgelegt) zuzugreifen

<$> python3 -m pipx ensurepath

Laut Ubuntuusers.de sollte man sich noch aus- und wieder einloggen; bei Holger hat es auch ohne Ab- und Anmeldung funktioniert.

Was pipx nun tut, erfahrt Ihr, wenn Ihr den obigem Link von ubuntuusers.de unter der Überschrift "Benutzung" nachlest.

In Holgers Fall (es war ein anderer Pfad vorangegeben) musste noch Handarbeit geleistet werden; über den Joe-Editor musste in der Datei '~/.bashrc noch der Pfad verändert werden und die Autovervollständigung (python-argcomplete) für pipx hinterlegt werden:

<$> ~> joe ~/.bashrc
^K  I A  ~/.bashrc (Modified)(conf)                                                                                                                      Row 30   Col 1   

# Sample .bashrc ['rc steht (vermutlich) für 'resource' = Systemdateien werden beim Start eines Terminals verändert]
# Copyright (c) SUSE Software Solutions Germany GmbH

# There are 3 different types of shells in bash: the login shell, normal shell
# and interactive shell. Login shells read ~/.profile and interactive shells
# read ~/.bashrc; in our setup, /etc/profile sources ~/.bashrc - thus all
# settings made here will also take effect in a login shell.
#
# NOTE: It is recommended to make language settings in ~/.profile rather than
# here, since multilingual X sessions would not work properly if LANG is over-
# ridden in every subshell.

#Include local und sik Linux/Skripte/ path
test -d ${Linux/Skripte} && test $(echo ${PATH} | grep ${Linux/Skripte}) || export PATH=${PATH}:${LinuxScripte}

# change dir
alias dir="ls -ahl"
test -s ~/.alias && . ~/.alias || true


export EDITOR=/usr/bin/joe
echo "Holgers Willkommenstext bei Konsolenöffnung"

# Created by `pipx` on 2024-12-06 20:28:59
export PATH="$PATH:/home/holger/.local/bin"

eval "$(register-python-argcomplete pipx)"

Die Änderungen an der Datei werden mit <Strg> + <C> und einem darauf folgenden <X> und durch Drücken der "N"-Taste ("N" für nein, Dateiänderungen akzeptieren) übernommen.

Holger muss jetzt erst mal alles in Ruhe sichten und dann einen Plan machen und experimentieren, wie genau er denn vorgehen wird. Er wird vermutlich als erstes

  1. eine RSS-Datei erstellen, in dem neben Buchtitel, Kapitel- und Versauswahl (mit Zeitstempel im Format hh:mm:sss) auch noch weitere Meta-Infos (wie Author, Link zur Webseite, Copyright, Textstand und Aufnahmedatum, etc.) aufgeführt werden; quasi ein "Inhaltsverzeichnis".

Eins ist klar: die 66 Bücher der Bibel mit ihren (ungefähr) knapp 1.200 Kapiteln und (ungefähr – je nach Bibelübersetzung – über 31.000 Versen in den Audiodateien versweise mit einem Zeitmarker zu versehen, dauert eine Weile ...



Fortschritte beim Zeichnen mit "Krita" übers Zeichentablett

  1. Einstellung Stiftgeschwindigkeit erhöhen, ermöglicht "flüssigeres" Zeichen (weniger krakelig)
  2. Funktion "Ausfüllen" (kolorieren) spart viel Zeit

Bertram demonstriert seine Erfolge mit dem Zeichenprogramm "Krita" per Bildschirmfreigabe. Die sind wirklich sehr ansehnlich geworden!




Installation von Whisper (von openAI) auf openSUSE über die Konsole

Holger moniert, dass sein Whisper nicht läuft; es erscheint nur ein Fenster, in dem Mikrofoneingang und Lautsprecherausgang gewählt werden können. Aber wie die Anwendung dann genutzt werden kann, erschließt sich Holger nicht.

Ulf weist darauf hin, dass es sich hier – bei Holgers Whisper von Flathub nicht um das (schon von Bertram installierte und genutzte Whisper openAI handelt. Das über die Softwareverwaltung "Discover" grafisch installierte Tool (auszugsweises Zitat aus dem Englischen übersetzt):

... erlaubt es, über die Lautsprecherausgänge die Mikrofoneingabe zu hören, um zum Beispiel das Mic zu testen, oder die eigene Stimme zu hören ...

Das von Holger gewünschte und von Bertram schon genutzte Whisper openAI dagegen ermöglicht es, gesprochene Sprache zu erkennen und in Schriftform in eine andere Sprache zu übertragen (z. B. deutsches Audio wird in englischen Text übersetzt und als Textdatei gespeichert).

So wird Whisper openAI über die Konsole (ohne "sudo" per pipx – wie bei dem Artikel weiter oben Installation mp3chaps – installiert:

<$>pipx install openai-whisper
  1. Jetzt wähle in Deinem Dateimanager – idealerweise Dolphin (KDE-Desktop ist Voraussetzung) – die zu transkribierende Audio-Datei (oder auch Videodatei) aus und öffne im Dateimanager (im Dolphin per Tastaturkürzel <F4>) die Konsole; das sieht in der Konsole des Dateimanagers dann so aus:<$>PFAD/Audiodatei/Audiofile1.mp3
  2. Als nächstes tippe den Befehl "whisper" in die letzte Zeile der Konsole <$>PFAD/Audiodatei/Audiofile1.mp3 whisper
  3. Nun ziehe die zu bearbeitende Datei einfach runter in die Konsole hinter den Befehl "whisper"; das sieht dann so aus: '<$>PFAD/Audiodatei whisper
  4. Man kann nun noch auswählen, mit welchem der fünf Sprachmodell man arbeiten möchte (siehe Box unten)
  5. Entscheidet man sich für die beste Transkription (die dauert am allerlängsten, sollte aber die besten Ergebnisse bieten) fügt man hinter die in die Konsole (des Dateimanagers) gezogene Audiodatei noch folgendes ein:


    Winzig (tiny): ca. 40 MiB
    Basis (base): ca. 70 MiB
    Klein (small): ca. 250 MiB
    Normal (medium): ca. 750 MiB
    Gross (large): ca. 1.500 MiB



Zurück zur Übersicht