!OpenAIWhisper完全ガイド ヒーロー画像

【2026年最新】OpenAI Whisperの使い方・料金を完全解説|文字起こしAIの始め方からローカル実行まで

会議の議事録、YouTube動画の字幕、インタビューのテープ起こし——「文字起こし」は誰もが一度は面倒だと感じたことがある作業です。OpenAI Whisperは、99言語以上に対応し、ローカルでもAPIでも動かせるオープンソースの音声認識モデルとして、2026年現在も文字起こしAIの定番であり続けています。

この記事では、Whisperの仕組みからモデル選び、API料金、ローカル実行の具体的な手順、日本語での精度検証、競合サービスとの比較まで、実務で必要な情報をすべてまとめました。

Key Takeaway: OpenAI Whisperの使い方・料金・モデル選び・ローカル実行方法を徹底解説。API版とOSS版の違い、faster-whisper・whisper.cppとの比較、日本語精度の検証まで網羅します。

この記事の要点

  • Whisperとは何か、なぜ文字起こしAIの定番なのか
  • API版の料金と使い方(Pythonコード付き)
  • ローカル実行の環境構築手順(Mac / Windows / Linux)
  • tiny〜large-v3-turboまでのモデル選び方
  • faster-whisper・whisper.cpp・mlx-whisperとの速度比較
  • 日本語の文字起こし精度と注意点
  • Google・AWS・Deepgramなど競合サービスとの違い

30秒で結論

  • 手軽に使いたい人 → OpenAI API($0.006/分 ≒ 約0.9円/分)で十分。コード5行で動く
  • コストを抑えたい人 → ローカルでlarge-v3-turboを実行。GPU 6GB以上あれば快適
  • Macユーザー → mlx-whisperが最速。Apple Silicon最適化で爆速
  • 最高精度が必要 → large-v3をローカル実行(VRAM 10GB必要)
  • リアルタイム文字起こし → Whisperはバッチ処理向き。リアルタイムならDeepgramかGoogle STTを検討

OpenAI Whisperとは?

OpenAI Whisperは、2022年9月にOpenAIがオープンソースで公開した汎用音声認識モデルです。68万時間以上のWeb音声データで訓練されており、以下の特徴があります。

  • 99言語以上に対応(日本語含む)
  • 文字起こし英語への翻訳の2タスクに対応
  • オープンソース(MITライセンス)で完全無料でローカル実行可能
  • OpenAI APIでも利用可能($0.006/分)

2026年現在、最新モデルはlarge-v3(2023年11月リリース)と、その高速化版であるlarge-v3-turbo(2024年10月リリース)です。

Whisperのアーキテクチャ

Whisperはエンコーダ・デコーダ型のTransformerモデルです。音声をメルスペクトログラムに変換し、エンコーダで特徴を抽出、デコーダがテキストを生成します。

音声ファイル → メルスペクトログラム(128bin) → Transformerエンコーダ → Transformerデコーダ → テキスト出力

この設計のおかげで、ノイズの多い環境でも比較的高い精度を維持できます。

モデルの種類と選び方

Whisperには用途に応じた複数のモデルサイズが用意されています。

モデル一覧(2026年4月時点)

モデル パラメータ数 必要VRAM 相対速度 英語WER おすすめ用途
tiny 39M ~1GB 32x 高め テスト・プロトタイプ
base 74M ~1GB 16x 中程度 軽量な文字起こし
small 244M ~2GB 6x 中程度 バランス型
medium 769M ~5GB 2x 低め 高精度が必要な場面
large-v2 1.55B ~10GB 1x 7.6% 高精度(旧版)
large-v3 1.55B ~10GB 1x 7.4% 最高精度
large-v3-turbo 809M ~6GB 6x 7.75% 速度と精度のベストバランス

ポイント: 多くのユースケースでlarge-v3-turboが最適解。large-v3と1〜2%しか精度差がなく、6倍高速で動作する。

日本語での精度について

Whisperの日本語精度は英語に比べるとやや劣ります。特に以下の点に注意が必要です。

  • 固有名詞(人名・地名・企業名)の認識精度が低い場合がある
  • 専門用語(法律用語、不動産用語など)が正しく変換されないケースがある
  • 同音異義語の判別は文脈依存で、100%正確ではない

ある検証では、日本語の電話音声に対するCER(文字誤り率)は約4〜5%。一般的な会話やインタビューであれば実用的な精度ですが、医療・法律・不動産などの専門分野では事後の校正が必要です。

initial_promptパラメータに固有名詞リストを渡すことで、精度を改善できます。

result = model.transcribe(
    "audio.mp3",
    language="ja",
    initial_prompt="以下は不動産に関する会話です。礼金、敷金、築年数、内見などの用語が登場します。"
)

## API版の使い方と料金

### API料金

OpenAI Whisper APIの料金はシンプルです。

| 項目 | 内容 |
|------|------|
| モデル | whisper-1(large-v2ベース) |
| 料金 | <strong>$0.006/分</strong>(秒単位で切り上げ) |
| 1時間あたり | $0.36(約54円 ※1ドル=150円換算) |
| ファイル上限 | 25MB |
| 対応形式 | mp3, mp4, mpeg, mpga, m4a, wav, webm |

月に100時間分の文字起こしをしても約5,400円。コスト面では非常に優秀です。

### APIキーの取得手順

1. [OpenAI Platform](https://platform.openai.com/)にアクセス
2. アカウントを作成(またはログイン)
3. 左メニューの「API keys」からキーを生成
4. Billing設定で最低$5を入金(自動チャージはOFFにしておくのがおすすめ)

### Python(公式SDK)での実装

```bash
pip install openai

```python
from openai 
client = OpenAI(api_key="sk-...")

# 文字起こし(Transcription)
with open("meeting.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ja",  # 日本語を指定(省略で自動検出)
        response_format="verbose_json",  # タイムスタンプ付き
    )

print(transcript.text)

```python
# 英語への翻訳(Translation)
with open("japanese_audio.mp3", "rb") as audio_file:
    translation = client.audio.translations.create(
        model="whisper-1",
        file=audio_file,
    )

print(translation.text)

### 25MBを超えるファイルの処理

APIのファイルサイズ上限は25MBです。長時間の音声は`pydub`で分割してから送信します。

```python
from pydub 
audio = AudioSegment.from_file("long_meeting.mp3")
chunk_length_ms = 10 * 60 * 1000  # 10分ごとに分割

chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]

full_text = ""
for i, chunk in enumerate(chunks):
    chunk.export(f"/tmp/chunk_{i}.mp3", format="mp3")
    with open(f"/tmp/chunk_{i}.mp3", "rb") as f:
        result = client.audio.transcriptions.create(
            model="whisper-1",
            file=f,
            language="ja",
        )
    full_text += result.text + "\n"

print(full_text)

## ローカル実行の始め方(OSS版)

ローカル実行なら完全無料で、データがOpenAIのサーバーに送信されないため、プライバシーの観点でも安心です。

### 前提条件

- Python 3.9〜3.12
- FFmpeg(音声処理に必須)
- GPU推奨(NVIDIA GPU + CUDA、またはApple Silicon)

### インストール手順

```bash
# 1. FFmpegをインストール
# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Windows(Chocolatey)
choco install ffmpeg

# 2. Whisperをインストール
pip install openai-whisper

### 基本的な使い方

```python

# モデルの読み込み(初回はダウンロードが入る)
model = whisper.load_model("large-v3-turbo")

# 文字起こし
result = model.transcribe(
    "meeting.mp3",
    language="ja",
    fp16=False,  # CPU実行時はFalseにする
)

print(result["text"])

# セグメントごとのタイムスタンプも取得可能
for segment in result["segments"]:
    print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")

### コマンドラインでの使い方

```bash
# 基本
whisper audio.mp3 --language ja --model large-v3-turbo

# SRT字幕ファイルを出力
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

# 複数ファイルを一括処理
whisper *.mp3 --language ja --model medium --output_dir ./transcripts/

## 高速化ツール比較:faster-whisper / whisper.cpp / mlx-whisper

公式のWhisperは精度は高いものの、推論速度に課題があります。以下のサードパーティ実装を使うと、同じモデルで大幅に高速化できます。

### 比較表

| 実装 | 言語 | 速度向上 | 特徴 | おすすめ環境 |
|------|------|---------|------|-------------|
| openai-whisper(公式) | Python | 1x(基準) | 公式、安定 | GPU搭載マシン |
| faster-whisper | Python | <strong>最大4倍</strong> | CTranslate2ベース、省メモリ | CUDA GPU |
| whisper.cpp | C++ | 2〜3倍 | CPU最適化、エッジ向け | CPU環境・組み込み |
| mlx-whisper | Python | <strong>whisper.cppの2倍</strong> | Apple Silicon最適化 | <strong>Mac(M1/M2/M3/M4)</strong> |

### faster-whisperの使い方

```bash
pip install faster-whisper

```python
from faster_whisper 
# large-v3-turboモデルをGPUで実行(float16)
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")

# CPU実行の場合
# model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")

segments, info = model.transcribe("meeting.mp3", language="ja", beam_size=5)

print(f"検出言語: {info.language} (確率: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")

<strong>ポイント</strong>: faster-whisperはメモリ使用量も公式版の半分程度。同じGPUでより大きなモデルが動かせる。

### mlx-whisperの使い方(Mac専用)

Apple Silicon搭載のMacなら、mlx-whisperが圧倒的に速いです。

```bash
pip install mlx-whisper

```bash
# コマンドラインで実行
mlx_whisper --model mlx-community/whisper-large-v3-turbo audio.mp3

```python

result = mlx_whisper.transcribe(
    "meeting.mp3",
    path_or_hf_repo="mlx-community/whisper-large-v3-turbo",
)
print(result["text"])

2026年1月のベンチマークでは、mlx-whisperはwhisper.cppの<strong>2.03倍高速</strong>という結果が出ています。M4 Mac miniなら、1時間の音声を数分で処理できます。

### whisper.cppの使い方

GPUがない環境やRaspberry PiなどのエッジデバイスにはCPU最適化されたwhisper.cppが適しています。

```bash
# ビルド
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
cmake -B build && cmake --build build --config Release

# モデルのダウンロード
bash models/download-ggml-model.sh large-v3-turbo

# 実行(WAV形式に変換してから)
ffmpeg -i meeting.mp3 -ar 16000 -ac 1 -c:a pcm_s16le meeting.wav
./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l ja -f meeting.wav

## 競合サービスとの比較

### 料金・速度・精度の比較表

| サービス | 料金/分 | 月1,000時間コスト | 速度 | 日本語対応 | リアルタイム |
|---------|---------|-----------------|------|----------|------------|
| <strong>OpenAI Whisper API</strong> | $0.006 | $360 | 1x | ◎ | ✕ |
| <strong>Deepgram Nova-3</strong> | $0.0043 | $258 | 30x | ○ | ◎ |
| <strong>Google Cloud STT v2</strong> | $0.016 | $960 | 5x | ◎ | ◎ |
| <strong>AWS Transcribe</strong> | $0.024 | $1,440 | 2x | ○ | ○ |
| <strong>[ElevenLabs](/tool/elevenlabs) Scribe</strong> | $0.006 | $360 | 高速 | ○ | ✕ |
| <strong>Whisper ローカル</strong> | 無料 | $0 | GPU依存 | ◎ | ✕ |

### どれを選ぶべきか

<strong>コスト最優先</strong> → Whisperをローカル実行(無料)またはDeepgram($0.0043/分)

<strong>API手軽さ重視</strong> → OpenAI Whisper API。5行のコードで動く

<strong>リアルタイム文字起こし</strong> → DeepgramかGoogle Cloud STT。Whisperはバッチ処理専用

<strong>日本語の専門用語精度</strong> → Google Cloud STTが住所・固有名詞に強い。カスタム辞書にも対応

<strong>エンタープライズ・セキュリティ</strong> → Azure Speech Services。カスタムモデル・オンプレ対応あり

## 実践的なユースケース

### 1. 会議の議事録作成

```python
from faster_whisper 
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, info = model.transcribe(
    "meeting_2026-04-03.mp3",
    language="ja",
    beam_size=5,
    vad_filter=True,  # 無音区間を自動スキップ
    vad_parameters=dict(min_silence_duration_ms=500),
)

# Markdown形式で出力
with open("minutes.md", "w") as f:
    f.write("# 議事録\n\n")
    for seg in segments:
        minutes = int(seg.start // 60)
        seconds = int(seg.start % 60)
        f.write(f"<strong>[{minutes:02d}:{seconds:02d}]</strong> {seg.text}\n\n")

### 2. YouTube動画の字幕生成(SRT形式)

```bash
# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=XXXXX" -o audio.mp3

# Whisperで字幕生成
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

### 3. Podcast のテキスト化と要約

```python
from faster_whisper openai 
# Step 1: 文字起こし
whisper_model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, _ = whisper_model.transcribe("podcast.mp3", language="ja")
full_text = " ".join([seg.text for seg in segments])

# Step 2: ChatGPTで要約
client = OpenAI()
summary = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "以下のPodcast文字起こしを、要点を箇条書きで要約してください。"},
        {"role": "user", "content": full_text}
    ]
)
print(summary.choices[0].message.content)

## 編集部の検証メモ

### 検証の観点

文字起こしAIは「精度」「コスト」「導入のしやすさ」で評価が分かれます。Whisperを軸に、公開情報から以下3点で整理しました。

- <strong>コスト構造</strong>: 従量課金か、ローカル実行で実質無料か
- <strong>日本語対応</strong>: 公式が99言語対応を謳うが、実装によって差が出る領域
- <strong>運用形態</strong>: API / ローカル / 派生実装(faster-whisper・whisper.cpp・mlx-whisper)の使い分け

### 公開情報からの比較整理

| 項目 | OpenAI API (Whisper) | ローカル large-v3 | faster-whisper | mlx-whisper |
|------|---------------------|------------------|----------------|-------------|
| 料金 | $0.006/分 | 電気代のみ | 電気代のみ | 電気代のみ |
| 実行環境 | クラウド | GPU 10GB目安 | GPU/CPU両対応 | Apple Silicon専用 |
| 日本語対応 | ◯ | ◯ (最高精度) | ◯ | ◯ |
| 商用利用 | OpenAI利用規約に準拠 | MITライセンス | MITライセンス | MITライセンス |
| 向くケース | 試作・小規模 | 高精度・機密データ | サーバー本番運用 | Macローカル |

※ 料金・仕様は2026年5月時点の公開情報。最新は各公式ドキュメントを参照。

### 編集部の総合判断

- <strong>とりあえず試したい個人・小規模チーム</strong>: OpenAI API一択。コード数行・1時間で約54円なら検討の余地なし
- <strong>機密音声・大量バッチ処理を回したい企業</strong>: faster-whisperでlarge-v3をオンプレ運用。クラウドにデータを出さずコストも電気代に収まる
- <strong>Macで個人作業を高速化したい人</strong>: mlx-whisperがApple Silicon最適化で頭一つ抜けた処理速度。ローカル完結で字幕作成・議事録に最適

## よくある質問(FAQ)

### Q. Whisperは完全に無料で使えますか?
ローカル実行なら完全無料です。オープンソース(MITライセンス)なので商用利用も問題ありません。APIを使う場合は$0.006/分(約0.9円/分)の従量課金です。

### Q. GPUがなくてもWhisperは動きますか?
動きます。ただしCPUだと処理速度が大幅に遅くなります。tinyやbaseモデルならCPUでも実用的ですが、large系のモデルはGPUを強く推奨します。Apple Silicon搭載のMacならmlx-whisperで高速に動作します。

### Q. Whisperはリアルタイムの音声認識に対応していますか?
標準のWhisperはバッチ処理(録音済みファイルの処理)専用です。リアルタイム文字起こしが必要な場合は、WhisperLiveやwhisper_streamingなどのラッパーライブラリを使うか、DeepgramやGoogle Cloud STTを検討してください。

### Q. 日本語の文字起こし精度はどのくらいですか?
クリアな音声であれば実用的な精度です。CER(文字誤り率)は一般的な会話で4〜5%程度。ただし固有名詞や専門用語は誤認識が起きやすいため、`initial_prompt`で用語リストを渡すか、事後の校正を組み合わせるのがおすすめです。

### Q. large-v3とlarge-v3-turboはどちらを選ぶべきですか?
ほとんどのケースでlarge-v3-turboが最適です。精度差はわずか1〜2%で、処理速度は6倍高速。VRAM要件も10GB→6GBに下がります。ただし翻訳タスク(他言語→英語)にはturboは不向きで、large-v3やmediumの方が正確です。

### Q. Whisperの文字起こし結果にタイムスタンプは付きますか?
はい。API版では`response_format="verbose_json"`を指定するとセグメントごとのタイムスタンプが返ります。ローカル版も`result["segments"]`でセグメント単位の開始・終了時刻を取得できます。SRT/VTT形式での出力にも対応しています。

### Q. 他のAI文字起こしサービスと比べてWhisperの強みは?
最大の強みは<strong>オープンソースでローカル実行できる</strong>こと。データを外部に送信しないためプライバシーを完全に守れます。大量の音声を処理する場合のコストも圧倒的に安い。一方、リアルタイム処理や話者分離(誰が話しているかの識別)は標準では対応していないため、用途によってはDeepgramやGoogle STTが適しています。

### Q. Whisperで話者分離(スピーカーダイアリゼーション)はできますか?
Whisper単体では対応していません。`pyannote-audio`などの話者分離ライブラリと組み合わせることで実現できます。faster-whisperには`vad_filter`(音声区間検出)が組み込まれており、無音区間のスキップは可能です。


## あわせて読みたい

- [【2026年最新】[ElevenLabs](/tool/elevenlabs)の使い方完全ガイド|料金・音声クローン・日本語対応を徹底解説](/mag/elevenlabs-guide-2026)
- [【2026年最新】AI文字起こしツールおすすめ7選|無料・有料を徹底比較](/mag/ai-transcription-tools-2026)
- [【2026年最新】AI要約ツールおすすめ10選|PDF・動画・文章を無料で要約する方法](/mag/ai-summarization-tools-guide-2026)