【2026年最新】OpenAI Whisperの使い方・料金を完全解説｜文字起こしAIの始め方からローカル実行まで

Q: Whisperは完全に無料で使えますか？

ローカル実行なら完全無料です。オープンソース（MITライセンス）なので商用利用も問題ありません。APIを使う場合は$0.006/分（約0.9円/分）の従量課金です。

Q: GPUがなくてもWhisperは動きますか？

動きます。ただしCPUだと処理速度が大幅に遅くなります。tinyやbaseモデルならCPUでも実用的ですが、large系のモデルはGPUを強く推奨します。Apple Silicon搭載のMacならmlx-whisperで高速に動作します。

Q: Whisperはリアルタイムの音声認識に対応していますか？

標準のWhisperはバッチ処理（録音済みファイルの処理）専用です。リアルタイム文字起こしが必要な場合は、WhisperLiveやwhisper_streamingなどのラッパーライブラリを使うか、DeepgramやGoogle Cloud STTを検討してください。

Q: 日本語の文字起こし精度はどのくらいですか？

クリアな音声であれば実用的な精度です。CER（文字誤り率）は一般的な会話で4〜5%程度。ただし固有名詞や専門用語は誤認識が起きやすいため、`initial_prompt`で用語リストを渡すか、事後の校正を組み合わせるのがおすすめです。

Q: large-v3とlarge-v3-turboはどちらを選ぶべきですか？

ほとんどのケースでlarge-v3-turboが最適です。精度差はわずか1〜2%で、処理速度は6倍高速。VRAM要件も10GB→6GBに下がります。ただし翻訳タスク（他言語→英語）にはturboは不向きで、large-v3やmediumの方が正確です。

Q: Whisperの文字起こし結果にタイムスタンプは付きますか？

はい。API版では`response_format="verbose_json"`を指定するとセグメントごとのタイムスタンプが返ります。ローカル版も`result["segments"]`でセグメント単位の開始・終了時刻を取得できます。SRT/VTT形式での出力にも対応しています。

Q: 他のAI文字起こしサービスと比べてWhisperの強みは？

最大の強みは**オープンソースでローカル実行できる**こと。データを外部に送信しないためプライバシーを完全に守れます。大量の音声を処理する場合のコストも圧倒的に安い。一方、リアルタイム処理や話者分離（誰が話しているかの識別）は標準では対応していないため、用途によってはDeepgramやGoogle STTが適しています。

Q: Whisperで話者分離（スピーカーダイアリゼーション）はできますか？

Whisper単体では対応していません。`pyannote-audio`などの話者分離ライブラリと組み合わせることで実現できます。faster-whisperには`vad_filter`（音声区間検出）が組み込まれており、無音区間のスキップは可能です。

会議の議事録、YouTube動画の字幕、インタビューのテープ起こし——「文字起こし」は誰もが一度は面倒だと感じたことがある作業です。OpenAI Whisperは、99言語以上に対応し、ローカルでもAPIでも動かせるオープンソースの音声認識モデルとして、2026年現在も文字起こしAIの定番であり続けています。

この記事では、Whisperの仕組みからモデル選び、API料金、ローカル実行の具体的な手順、日本語での精度検証、競合サービスとの比較まで、実務で必要な情報をすべてまとめました。

Key Takeaway: OpenAI Whisperの使い方・料金・モデル選び・ローカル実行方法を徹底解説。API版とOSS版の違い、faster-whisper・whisper.cppとの比較、日本語精度の検証まで網羅します。

この記事の要点

Whisperとは何か、なぜ文字起こしAIの定番なのか
API版の料金と使い方（Pythonコード付き）
ローカル実行の環境構築手順（Mac / Windows / Linux）
tiny〜large-v3-turboまでのモデル選び方
faster-whisper・whisper.cpp・mlx-whisperとの速度比較
日本語の文字起こし精度と注意点
Google・AWS・Deepgramなど競合サービスとの違い

30秒で結論

手軽に使いたい人 → OpenAI API（$0.006/分 ≒ 約0.9円/分）で十分。コード5行で動く
コストを抑えたい人 → ローカルでlarge-v3-turboを実行。GPU 6GB以上あれば快適
Macユーザー → mlx-whisperが最速。Apple Silicon最適化で爆速
最高精度が必要 → large-v3をローカル実行（VRAM 10GB必要）
リアルタイム文字起こし → Whisperはバッチ処理向き。リアルタイムならDeepgramかGoogle STTを検討

OpenAI Whisperとは？

OpenAI Whisperは、2022年9月にOpenAIがオープンソースで公開した汎用音声認識モデルです。68万時間以上のWeb音声データで訓練されており、以下の特徴があります。

99言語以上に対応（日本語含む）
文字起こしと英語への翻訳の2タスクに対応
オープンソース（MITライセンス）で完全無料でローカル実行可能
OpenAI APIでも利用可能（$0.006/分）

2026年現在、最新モデルはlarge-v3（2023年11月リリース）と、その高速化版であるlarge-v3-turbo（2024年10月リリース）です。

Whisperのアーキテクチャ

Whisperはエンコーダ・デコーダ型のTransformerモデルです。音声をメルスペクトログラムに変換し、エンコーダで特徴を抽出、デコーダがテキストを生成します。

音声ファイル → メルスペクトログラム(128bin) → Transformerエンコーダ → Transformerデコーダ → テキスト出力

この設計のおかげで、ノイズの多い環境でも比較的高い精度を維持できます。

モデルの種類と選び方

Whisperには用途に応じた複数のモデルサイズが用意されています。

モデル一覧（2026年4月時点）

モデル	パラメータ数	必要VRAM	相対速度	英語WER	おすすめ用途
tiny	39M	~1GB	32x	高め	テスト・プロトタイプ
base	74M	~1GB	16x	中程度	軽量な文字起こし
small	244M	~2GB	6x	中程度	バランス型
medium	769M	~5GB	2x	低め	高精度が必要な場面
large-v2	1.55B	~10GB	1x	7.6%	高精度（旧版）
large-v3	1.55B	~10GB	1x	7.4%	最高精度
large-v3-turbo	809M	~6GB	6x	7.75%	速度と精度のベストバランス

ポイント: 多くのユースケースでlarge-v3-turboが最適解。large-v3と1〜2%しか精度差がなく、6倍高速で動作する。

日本語での精度について

Whisperの日本語精度は英語に比べるとやや劣ります。特に以下の点に注意が必要です。

固有名詞（人名・地名・企業名）の認識精度が低い場合がある
専門用語（法律用語、不動産用語など）が正しく変換されないケースがある
同音異義語の判別は文脈依存で、100%正確ではない

ある検証では、日本語の電話音声に対するCER（文字誤り率）は約4〜5%。一般的な会話やインタビューであれば実用的な精度ですが、医療・法律・不動産などの専門分野では事後の校正が必要です。

initial_promptパラメータに固有名詞リストを渡すことで、精度を改善できます。

result = model.transcribe(
    "audio.mp3",
    language="ja",
    initial_prompt="以下は不動産に関する会話です。礼金、敷金、築年数、内見などの用語が登場します。"
)

## API版の使い方と料金

### API料金

OpenAI Whisper APIの料金はシンプルです。

| 項目 | 内容 |
|------|------|
| モデル | whisper-1（large-v2ベース） |
| 料金 | <strong>$0.006/分</strong>（秒単位で切り上げ） |
| 1時間あたり | $0.36（約54円 ※1ドル=150円換算） |
| ファイル上限 | 25MB |
| 対応形式 | mp3, mp4, mpeg, mpga, m4a, wav, webm |

月に100時間分の文字起こしをしても約5,400円。コスト面では非常に優秀です。

### APIキーの取得手順

1. [OpenAI Platform](https://platform.openai.com/)にアクセス
2. アカウントを作成（またはログイン）
3. 左メニューの「API keys」からキーを生成
4. Billing設定で最低$5を入金（自動チャージはOFFにしておくのがおすすめ）

### Python（公式SDK）での実装

```bash
pip install openai

```python
from openai 
client = OpenAI(api_key="sk-...")

# 文字起こし（Transcription）
with open("meeting.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ja",  # 日本語を指定（省略で自動検出）
        response_format="verbose_json",  # タイムスタンプ付き
    )

print(transcript.text)

```python
# 英語への翻訳（Translation）
with open("japanese_audio.mp3", "rb") as audio_file:
    translation = client.audio.translations.create(
        model="whisper-1",
        file=audio_file,
    )

print(translation.text)

### 25MBを超えるファイルの処理

APIのファイルサイズ上限は25MBです。長時間の音声は`pydub`で分割してから送信します。

```python
from pydub 
audio = AudioSegment.from_file("long_meeting.mp3")
chunk_length_ms = 10 * 60 * 1000  # 10分ごとに分割

chunks = [audio[i:i+chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]

full_text = ""
for i, chunk in enumerate(chunks):
    chunk.export(f"/tmp/chunk_{i}.mp3", format="mp3")
    with open(f"/tmp/chunk_{i}.mp3", "rb") as f:
        result = client.audio.transcriptions.create(
            model="whisper-1",
            file=f,
            language="ja",
        )
    full_text += result.text + "\n"

print(full_text)

## ローカル実行の始め方（OSS版）

ローカル実行なら完全無料で、データがOpenAIのサーバーに送信されないため、プライバシーの観点でも安心です。

### 前提条件

- Python 3.9〜3.12
- FFmpeg（音声処理に必須）
- GPU推奨（NVIDIA GPU + CUDA、またはApple Silicon）

### インストール手順

```bash
# 1. FFmpegをインストール
# macOS
brew install ffmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# Windows（Chocolatey）
choco install ffmpeg

# 2. Whisperをインストール
pip install openai-whisper

### 基本的な使い方

```python

# モデルの読み込み（初回はダウンロードが入る）
model = whisper.load_model("large-v3-turbo")

# 文字起こし
result = model.transcribe(
    "meeting.mp3",
    language="ja",
    fp16=False,  # CPU実行時はFalseにする
)

print(result["text"])

# セグメントごとのタイムスタンプも取得可能
for segment in result["segments"]:
    print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")

### コマンドラインでの使い方

```bash
# 基本
whisper audio.mp3 --language ja --model large-v3-turbo

# SRT字幕ファイルを出力
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

# 複数ファイルを一括処理
whisper *.mp3 --language ja --model medium --output_dir ./transcripts/

## 高速化ツール比較：faster-whisper / whisper.cpp / mlx-whisper

公式のWhisperは精度は高いものの、推論速度に課題があります。以下のサードパーティ実装を使うと、同じモデルで大幅に高速化できます。

### 比較表

| 実装 | 言語 | 速度向上 | 特徴 | おすすめ環境 |
|------|------|---------|------|-------------|
| openai-whisper（公式） | Python | 1x（基準） | 公式、安定 | GPU搭載マシン |
| faster-whisper | Python | <strong>最大4倍</strong> | CTranslate2ベース、省メモリ | CUDA GPU |
| whisper.cpp | C++ | 2〜3倍 | CPU最適化、エッジ向け | CPU環境・組み込み |
| mlx-whisper | Python | <strong>whisper.cppの2倍</strong> | Apple Silicon最適化 | <strong>Mac（M1/M2/M3/M4）</strong> |

### faster-whisperの使い方

```bash
pip install faster-whisper

```python
from faster_whisper 
# large-v3-turboモデルをGPUで実行（float16）
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")

# CPU実行の場合
# model = WhisperModel("large-v3-turbo", device="cpu", compute_type="int8")

segments, info = model.transcribe("meeting.mp3", language="ja", beam_size=5)

print(f"検出言語: {info.language} (確率: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")

<strong>ポイント</strong>: faster-whisperはメモリ使用量も公式版の半分程度。同じGPUでより大きなモデルが動かせる。

### mlx-whisperの使い方（Mac専用）

Apple Silicon搭載のMacなら、mlx-whisperが圧倒的に速いです。

```bash
pip install mlx-whisper

```bash
# コマンドラインで実行
mlx_whisper --model mlx-community/whisper-large-v3-turbo audio.mp3

```python

result = mlx_whisper.transcribe(
    "meeting.mp3",
    path_or_hf_repo="mlx-community/whisper-large-v3-turbo",
)
print(result["text"])

2026年1月のベンチマークでは、mlx-whisperはwhisper.cppの<strong>2.03倍高速</strong>という結果が出ています。M4 Mac miniなら、1時間の音声を数分で処理できます。

### whisper.cppの使い方

GPUがない環境やRaspberry PiなどのエッジデバイスにはCPU最適化されたwhisper.cppが適しています。

```bash
# ビルド
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp
cmake -B build && cmake --build build --config Release

# モデルのダウンロード
bash models/download-ggml-model.sh large-v3-turbo

# 実行（WAV形式に変換してから）
ffmpeg -i meeting.mp3 -ar 16000 -ac 1 -c:a pcm_s16le meeting.wav
./build/bin/whisper-cli -m models/ggml-large-v3-turbo.bin -l ja -f meeting.wav

## 競合サービスとの比較

### 料金・速度・精度の比較表

| サービス | 料金/分 | 月1,000時間コスト | 速度 | 日本語対応 | リアルタイム |
|---------|---------|-----------------|------|----------|------------|
| <strong>OpenAI Whisper API</strong> | $0.006 | $360 | 1x | ◎ | ✕ |
| <strong>Deepgram Nova-3</strong> | $0.0043 | $258 | 30x | ○ | ◎ |
| <strong>Google Cloud STT v2</strong> | $0.016 | $960 | 5x | ◎ | ◎ |
| <strong>AWS Transcribe</strong> | $0.024 | $1,440 | 2x | ○ | ○ |
| <strong>[ElevenLabs](/tool/elevenlabs) Scribe</strong> | $0.006 | $360 | 高速 | ○ | ✕ |
| <strong>Whisper ローカル</strong> | 無料 | $0 | GPU依存 | ◎ | ✕ |

### どれを選ぶべきか

<strong>コスト最優先</strong> → Whisperをローカル実行（無料）またはDeepgram（$0.0043/分）

<strong>API手軽さ重視</strong> → OpenAI Whisper API。5行のコードで動く

<strong>リアルタイム文字起こし</strong> → DeepgramかGoogle Cloud STT。Whisperはバッチ処理専用

<strong>日本語の専門用語精度</strong> → Google Cloud STTが住所・固有名詞に強い。カスタム辞書にも対応

<strong>エンタープライズ・セキュリティ</strong> → Azure Speech Services。カスタムモデル・オンプレ対応あり

## 実践的なユースケース

### 1. 会議の議事録作成

```python
from faster_whisper 
model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, info = model.transcribe(
    "meeting_2026-04-03.mp3",
    language="ja",
    beam_size=5,
    vad_filter=True,  # 無音区間を自動スキップ
    vad_parameters=dict(min_silence_duration_ms=500),
)

# Markdown形式で出力
with open("minutes.md", "w") as f:
    f.write("# 議事録\n\n")
    for seg in segments:
        minutes = int(seg.start // 60)
        seconds = int(seg.start % 60)
        f.write(f"<strong>[{minutes:02d}:{seconds:02d}]</strong> {seg.text}\n\n")

### 2. YouTube動画の字幕生成（SRT形式）

```bash
# yt-dlpで音声をダウンロード
yt-dlp -x --audio-format mp3 "https://www.youtube.com/watch?v=XXXXX" -o audio.mp3

# Whisperで字幕生成
whisper audio.mp3 --language ja --model large-v3-turbo --output_format srt

### 3. Podcast のテキスト化と要約

```python
from faster_whisper openai 
# Step 1: 文字起こし
whisper_model = WhisperModel("large-v3-turbo", device="cuda", compute_type="float16")
segments, _ = whisper_model.transcribe("podcast.mp3", language="ja")
full_text = " ".join([seg.text for seg in segments])

# Step 2: ChatGPTで要約
client = OpenAI()
summary = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": "以下のPodcast文字起こしを、要点を箇条書きで要約してください。"},
        {"role": "user", "content": full_text}
    ]
)
print(summary.choices[0].message.content)

## 編集部の検証メモ

### 検証の観点

文字起こしAIは「精度」「コスト」「導入のしやすさ」で評価が分かれます。Whisperを軸に、公開情報から以下3点で整理しました。

- <strong>コスト構造</strong>: 従量課金か、ローカル実行で実質無料か
- <strong>日本語対応</strong>: 公式が99言語対応を謳うが、実装によって差が出る領域
- <strong>運用形態</strong>: API / ローカル / 派生実装（faster-whisper・whisper.cpp・mlx-whisper）の使い分け

### 公開情報からの比較整理

| 項目 | OpenAI API (Whisper) | ローカル large-v3 | faster-whisper | mlx-whisper |
|------|---------------------|------------------|----------------|-------------|
| 料金 | $0.006/分 | 電気代のみ | 電気代のみ | 電気代のみ |
| 実行環境 | クラウド | GPU 10GB目安 | GPU/CPU両対応 | Apple Silicon専用 |
| 日本語対応 | ◯ | ◯ (最高精度) | ◯ | ◯ |
| 商用利用 | OpenAI利用規約に準拠 | MITライセンス | MITライセンス | MITライセンス |
| 向くケース | 試作・小規模 | 高精度・機密データ | サーバー本番運用 | Macローカル |

※ 料金・仕様は2026年5月時点の公開情報。最新は各公式ドキュメントを参照。

### 編集部の総合判断

- <strong>とりあえず試したい個人・小規模チーム</strong>: OpenAI API一択。コード数行・1時間で約54円なら検討の余地なし
- <strong>機密音声・大量バッチ処理を回したい企業</strong>: faster-whisperでlarge-v3をオンプレ運用。クラウドにデータを出さずコストも電気代に収まる
- <strong>Macで個人作業を高速化したい人</strong>: mlx-whisperがApple Silicon最適化で頭一つ抜けた処理速度。ローカル完結で字幕作成・議事録に最適

## よくある質問（FAQ）

### Q. Whisperは完全に無料で使えますか？
ローカル実行なら完全無料です。オープンソース（MITライセンス）なので商用利用も問題ありません。APIを使う場合は$0.006/分（約0.9円/分）の従量課金です。

### Q. GPUがなくてもWhisperは動きますか？
動きます。ただしCPUだと処理速度が大幅に遅くなります。tinyやbaseモデルならCPUでも実用的ですが、large系のモデルはGPUを強く推奨します。Apple Silicon搭載のMacならmlx-whisperで高速に動作します。

### Q. Whisperはリアルタイムの音声認識に対応していますか？
標準のWhisperはバッチ処理（録音済みファイルの処理）専用です。リアルタイム文字起こしが必要な場合は、WhisperLiveやwhisper_streamingなどのラッパーライブラリを使うか、DeepgramやGoogle Cloud STTを検討してください。

### Q. 日本語の文字起こし精度はどのくらいですか？
クリアな音声であれば実用的な精度です。CER（文字誤り率）は一般的な会話で4〜5%程度。ただし固有名詞や専門用語は誤認識が起きやすいため、`initial_prompt`で用語リストを渡すか、事後の校正を組み合わせるのがおすすめです。

### Q. large-v3とlarge-v3-turboはどちらを選ぶべきですか？
ほとんどのケースでlarge-v3-turboが最適です。精度差はわずか1〜2%で、処理速度は6倍高速。VRAM要件も10GB→6GBに下がります。ただし翻訳タスク（他言語→英語）にはturboは不向きで、large-v3やmediumの方が正確です。

### Q. Whisperの文字起こし結果にタイムスタンプは付きますか？
はい。API版では`response_format="verbose_json"`を指定するとセグメントごとのタイムスタンプが返ります。ローカル版も`result["segments"]`でセグメント単位の開始・終了時刻を取得できます。SRT/VTT形式での出力にも対応しています。

### Q. 他のAI文字起こしサービスと比べてWhisperの強みは？
最大の強みは<strong>オープンソースでローカル実行できる</strong>こと。データを外部に送信しないためプライバシーを完全に守れます。大量の音声を処理する場合のコストも圧倒的に安い。一方、リアルタイム処理や話者分離（誰が話しているかの識別）は標準では対応していないため、用途によってはDeepgramやGoogle STTが適しています。

### Q. Whisperで話者分離（スピーカーダイアリゼーション）はできますか？
Whisper単体では対応していません。`pyannote-audio`などの話者分離ライブラリと組み合わせることで実現できます。faster-whisperには`vad_filter`（音声区間検出）が組み込まれており、無音区間のスキップは可能です。


## あわせて読みたい

- [【2026年最新】[ElevenLabs](/tool/elevenlabs)の使い方完全ガイド｜料金・音声クローン・日本語対応を徹底解説](/mag/elevenlabs-guide-2026)
- [【2026年最新】AI文字起こしツールおすすめ7選｜無料・有料を徹底比較](/mag/ai-transcription-tools-2026)
- [【2026年最新】AI要約ツールおすすめ10選｜PDF・動画・文章を無料で要約する方法](/mag/ai-summarization-tools-guide-2026)

【2026年最新】OpenAI Whisperの使い方・料金を完全解説｜文字起こしAIの始め方からローカル実行まで

【2026年最新】OpenAI Whisperの使い方・料金を完全解説｜文字起こしAIの始め方からローカル実行まで

この記事の要点

30秒で結論

OpenAI Whisperとは？

Whisperのアーキテクチャ

モデルの種類と選び方

モデル一覧（2026年4月時点）

日本語での精度について

編集部の検証ノート

あわせて読みたい基礎ガイド

ChatGPT Free/Go/Plus/Pro 違い2026｜月¥3,000で何ができる

Yuto Suzuki

関連記事

【2026年最新】AIロゴ作成ツール厳選比較｜無料で使える11選と失敗しない選び方

【2026年最新】AIプレゼンツール比較｜Gamma/Beautiful.ai/AIスライド全部試した本音

【2026年最新】n8n 使い方完全ガイド｜セルフホストとCloudの選び方

【2026年最新】OpenAI Whisperの使い方・料金を完全解説｜文字起こしAIの始め方からローカル実行まで

この記事の要点

30秒で結論

OpenAI Whisperとは？

Whisperのアーキテクチャ

モデルの種類と選び方

モデル一覧（2026年4月時点）

日本語での精度について

編集部の検証ノート

あわせて読みたい基礎ガイド

ChatGPT Free/Go/Plus/Pro 違い2026｜月¥3,000で何ができる

Yuto Suzuki

関連記事

【2026年最新】AIロゴ作成ツール厳選比較｜無料で使える11選と失敗しない選び方

【2026年最新】AIプレゼン ツール 比較｜Gamma/Beautiful.ai/AIスライド全部試した本音

【2026年最新】n8n 使い方完全ガイド｜セルフホストとCloudの選び方

【2026年最新】AIプレゼンツール比較｜Gamma/Beautiful.ai/AIスライド全部試した本音