May 2025

Whisper installieren: Eine Schritt-für-Schritt Anleitung

Die Transkriptionslösung Whisper von OpenAI ist leistungsfähig, aber auch etwas kompliziert. Wir zeigen dir Schritt-für-Schritt wie du Whisper installieren ✓ und nutzen kannst ✓.

Whisper installieren: Schritt-für-Schritt Anleitung

Whisper ist eines der leistungsfähigsten Tools für automatische Spracherkennung. Entwickelt von OpenAI, kostenlos verfügbar und mehrsprachig einsetzbar. Doch wie installiert man Whisper eigentlich? In diesem Artikel zeige ich dir Schritt für Schritt, wie du Whisper auf deinem Rechner zum Laufen bringst. Egal ob Windows, macOS oder Linux – du bekommst eine klare Anleitung, mit der du sofort loslegen kannst.

Vorbereitung: Was du vor der Whisper Installation brauchst

Bevor du Whisper installierst, musst du einige Grundlagen schaffen. Keine Sorge: Du brauchst keine Programmiererfahrung, nur ein bisschen Geduld.

Python installieren

Whisper läuft über Python. Am besten verwendest du eine Version zwischen 3.8 und 3.11.

  • Lade Python auf python.org herunter
  • Achte bei der Installation auf Windows darauf, dass du "Add Python to PATH" auswählst

Prüfe die Installation danach im Terminal oder in der Eingabeaufforderung:

python --version

Virtuelle Umgebung einrichten (empfohlen)

Eine virtuelle Umgebung hilft dir, Whisper sauber zu installieren, ohne andere Projekte zu stören.

Unter Windows oder Linux/macOS:

python -m venv whisper-env
source whisper-env/bin/activate  # macOS/Linux
whisper-env\Scripts\activate.bat  # Windows

Jetzt kannst du in dieser Umgebung alles installieren, ohne dein System zu beeinflussen.

OpenAI Whisper Logo

FFmpeg installieren

Whisper nutzt FFmpeg, um Audiodateien in das richtige Format zu bringen. Ohne FFmpeg funktioniert es nicht.

Windows:

choco install ffmpeg

macOS:

brew install ffmpeg

Linux (Debian/Ubuntu):

sudo apt update && sudo apt install ffmpeg

Prüfe danach mit:

ffmpeg -version

Whisper installieren: So geht’s

Sobald Python und FFmpeg bereit sind, kannst du Whisper installieren.

Schritt 1: Whisper per pip installieren

Whisper ist als Python-Paket über pip verfügbar:

pip install -U openai-whisper

Dabei werden automatisch auch alle nötigen Abhängigkeiten mitinstalliert. Sollte es Probleme geben (z. B. mit tiktoken oder rust), hilft oft ein Update von pip oder die Installation des Rust-Compilers:

pip install --upgrade pip

Schritt 2: Testlauf mit einer Audiodatei

Lade eine Audiodatei in das Projektverzeichnis und erstelle eine neue Python-Datei (z. B. transkribieren.py):

import whisper

model = whisper.load_model("small")
result = model.transcribe("beispiel.mp3")
print(result["text"])

Starte das Skript mit:

python transkribieren.py

Das Modell wird beim ersten Mal automatisch heruntergeladen. Danach startet die Transkription.

Whisper auf Windows installieren

1. Python und FFmpeg installieren

Wie oben beschrieben. Achte besonders auf die PATH-Variable. Sie sorgt dafür, dass Python und FFmpeg von jedem Ort im System aus aufgerufen werden können. Wenn der Pfad nicht korrekt gesetzt ist, erkennt dein Computer die Befehle wie python oder ffmpeg nicht – selbst wenn sie eigentlich installiert sind. Das führt häufig zu Fehlermeldungen und unnötiger Fehlersuche.

2. Virtuelle Umgebung aktivieren

python -m venv whisper-env
whisper-env\Scripts\activate.bat

3. Whisper und ggf. PyTorch installieren

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
pip install -U openai-whisper

Falls du keine GPU hast, kannst du auch die CPU-Version nutzen:

pip install torch torchvision torchaudio

4. Testlauf

Nutze das Beispielskript von oben. Bei Problemen mit der Audiodatei: überprüfe das Format – MP3, WAV und M4A funktionieren in der Regel problemlos. Whisper nutzt im Hintergrund FFmpeg, um die Datei in das richtige Format zu konvertieren. Achte darauf, dass die Datei nicht beschädigt ist, eine konstante Bitrate verwendet und keine DRM-Sperre enthält. Wenn möglich, teste zunächst mit einer kurzen, klar verständlichen Audiodatei.

Whisper auf macOS installieren

1. Homebrew, Python und FFmpeg installieren

brew install python@3.11
brew install ffmpeg

2. Virtuelle Umgebung einrichten und aktivieren

python3 -m venv whisper-env
source whisper-env/bin/activate

3. Whisper installieren

pip install -U openai-whisper

4. Testlauf mit Audio

Gleicher Ablauf wie unter Windows. Auf Apple-Geräten mit M1/M2 Chips unterstützt PyTorch die Metal-Beschleunigung (MPS), die speziell für macOS entwickelt wurde. Dadurch kann die Transkription deutlich schneller erfolgen, auch wenn keine dedizierte NVIDIA-GPU vorhanden ist. Besonders beim Einsatz mittlerer Modelle wie 'small' oder 'medium' ist der Performancegewinn spürbar. Voraussetzung ist, dass eine aktuelle PyTorch-Version mit MPS-Support installiert ist.

Whisper auf Linux installieren

1. FFmpeg und Python installieren

sudo apt update
sudo apt install ffmpeg python3 python3-pip python3-venv

2. Virtuelle Umgebung erstellen und aktivieren

python3 -m venv whisper-env
source whisper-env/bin/activate

3. Whisper installieren

pip install -U openai-whisper

4. Optional: PyTorch mit CUDA für NVIDIA

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

5. Testlauf wie oben

Führe denselben Testlauf wie in der allgemeinen Anleitung durch. Lege eine Audiodatei (z. B. MP3) in dein Arbeitsverzeichnis, erstelle ein Python-Skript mit folgendem Inhalt:

import whisper

model = whisper.load_model("small")
result = model.transcribe("beispiel.mp3")
print(result["text"])

Starte das Skript mit:

python transkribieren.py

Wenn alles korrekt installiert wurde, wird das Modell automatisch geladen und der erkannte Text ausgegeben.

OpenAI Whisper Logo Bild

Modelle und Speicherbedarf bei der Whisper Installation

Beim ersten Start lädt Whisper das Modell herunter. Du kannst zwischen verschiedenen Modellgrößen wählen:

  • tiny: schnell, aber weniger genau (~75 MB)
  • base: besserer Kompromiss (~142 MB)
  • small: solide Genauigkeit (~244 MB)
  • medium: sehr genau, aber langsamer (~769 MB)
  • large: maximale Qualität, braucht aber ~1,55 GB

Die Modelle werden im Verzeichnis ~/.cache/whisper gespeichert. Du kannst sie jederzeit löschen oder manuell verwalten.

Häufige Fehler und Lösungen bei der Whisper Installation

FFmpeg not found

Stelle sicher, dass ffmpeg im PATH ist. Teste mit ffmpeg -version.

"No module named 'whisper'"

Aktiviere deine virtuelle Umgebung, bevor du das Skript startest. Das geht so: Gib im Terminal den passenden Befehl ein – zum Beispiel source whisper-env/bin/activate auf macOS oder Linux, oder whisper-env\Scripts\activate.bat unter Windows. Danach ist deine Umgebung aktiv und alle Pakete wie Whisper sind einsatzbereit.

CUDA wird nicht erkannt

Installiere PyTorch mit dem richtigen CUDA-Index. Der Index richtet sich nach deiner installierten CUDA-Version – zum Beispiel cu118 für CUDA 11.8 oder cu121 für CUDA 12.1. Du findest die passende Version auf der offiziellen PyTorch-Website unter "Get Started". Wenn du keine GPU hast oder CUDA nicht installiert ist, kannst du einfach die CPU-Version nehmen. Whisper funktioniert auch ohne GPU – nur eben langsamer.

Fehler beim Transkribieren

Prüfe, ob die Datei unterstützt wird. Whisper kann fast alle Formate verarbeiten, solange FFmpeg sie lesen kann. Dazu gehören unter anderem MP3, WAV, FLAC, M4A, MP4, WebM, OGG und AAC. Wichtig ist, dass die Datei keine DRM-Verschlüsselung enthält und sauber abspielbar ist – sonst kann es zu Fehlern kommen.

Fazit: Whisper  installieren oder auf Alternativen ausweichen

Mit wenigen Schritten läuft Whisper auf jedem modernen Rechner. Wer sich einmal damit beschäftigt, bekommt ein mächtiges Spracherkennungs-Tool in die Hand. Ob du Meetings, Podcasts oder Vorträge transkribierst: Whisper ist flexibel, datenschutzfreundlich und kostenlos. Wer keine Lust auf Installationen hat und eine Plug-and-Play Lösung will, kann alternativ auch Dienste wie Sally nutzen, die ganze ohne eigene Einrichtung gute Transkription bieten inklusive automatischer, individualisierbarer KI-Zusammenfassungen und automatische Integration in CRM oder andere Tools.

In jedem Fall: Spracherkennung war noch nie so zugänglich wie heute. Wenn du auch ein All-in-One Tool nutzen willst, dass dir massig Zeit spart, dann teste Sally jetzt kostenlos.

Meeting-Transkription testen!

Erlebe, wie entspannt Meeting-Notizen sein können - teste Sally 4 Wochen kostenlos.

Jetzt testenOder: Demo-Termin vereinbaren

Die neusten Blogbeiträge