【2026年最新】Deepgram完全ガイド|使い方・料金・Nova-3の始め方を徹底解説
「音声認識APIを使いたいけど、どれが一番安くて精度が高いの?」——その答えがDeepgramです。
Deepgramは音声認識(STT)・音声合成(TTS)・ボイスエージェントAPIを提供するAI音声プラットフォームです。2026年現在、最新モデル「Nova-3」は45以上の言語に対応し、ストリーミング認識のレイテンシは300ms以下を実現。料金も従量課金で$0.0043/分(Nova-3 プリレコード)と、競合の中でコスパが高い選択肢です。
この記事では、Deepgramの料金体系からPython APIの実装手順、AssemblyAI・Whisperとの比較まで、2026年4月時点の最新情報をまとめます。
Key Takeaway: Deepgramの使い方・料金プランを完全解説。Nova-3の精度・レイテンシ・日本語対応、PythonでのAPI実装手順、AssemblyAI・Whisperとの比較まで2026年最新版。
この記事の要点
- Deepgramの2026年最新料金プラン(Nova-3・Voice Agent・TTSの具体的な単価)
- APIキー取得から最初の文字起こしまでの実装手順(Python/JavaScript)
- AssemblyAI・OpenAI Whisper・Google Cloud Speechとの比較
- 日本語対応の実態と注意点
- 無料枠$200の具体的な使い方
30秒で結論
- 無料枠: サインアップで$200分のクレジット付与(プリレコード換算で約46,500分)
- Nova-3 プリレコード: $0.0043/分($0.258/時間)
- Nova-3 ストリーミング: $0.0077/分($0.462/時間)
- 日本語対応: STT・TTSとも対応済み(精度は英語より若干低め)
- 最大の強み: レイテンシの低さとAPIの使いやすさ
Deepgramとは?音声AIプラットフォームの全体像
Deepgramは2015年創業の米国サンフランシスコ発の音声AI企業です。2026年現在、同社のAPIは世界中の企業・開発者に採用されており、IBMとのエンタープライズ向け音声AI連携(2026年2月発表)も話題になりました。
DeepgramのAPIは大きく3つの領域をカバーしています。
| 機能 | モデル名 | 用途 |
|---|---|---|
| STT(音声→テキスト) | Nova-3 / Nova-2 | 文字起こし、リアルタイム音声認識 |
| TTS(テキスト→音声) | Aura-2 | 音声読み上げ、ナレーション生成 |
| Voice Agent API | Voicebot | 対話型音声エージェント構築 |
Deepgramが選ばれる3つの理由
1. 低レイテンシ Nova-3のストリーミング認識は300ms以下を公称。リアルタイム字幕やボイスアシスタントで実用的に使えるレベルです。コールセンター向けAIや音声インターフェース開発では、このレイテンシが決定的な差を生みます。
2. 開発しやすいSDK Python・JavaScript・Go・Ruby・Rust・.NETなど主要言語のSDKが揃っています。ドキュメントも充実しており、APIキー取得から最初の文字起こしまで5分以内に完了できます。
3. 柔軟な機能オプション 話者識別(Speaker Diarization)、スマートフォーマット、キータームプロンプティング、自動言語検出など、単なる文字起こし以上の機能をAPIオプションで簡単に追加できます。
Deepgramの料金プラン【2026年4月最新】
STT(音声認識)料金
Deepgramの価格設定はシンプルな従量課金です。基本的に「1分あたりの単価 × 使用分数」で計算します。
Nova-3(最新モデル)
| 処理タイプ | 単価 | 換算 |
|---|---|---|
| プリレコード(バッチ) | $0.0043/分 | 約¥0.65/分 |
| ストリーミング(リアルタイム) | $0.0077/分 | 約¥1.15/分 |
Nova-2(旧モデル・現役)
| 処理タイプ | 単価 |
|---|---|
| プリレコード | $0.0043/分 |
| ストリーミング | $0.0077/分 |
ポイント: Nova-3とNova-2は同価格。精度が上がったNova-3を使わない理由はない。
話者識別(Speaker Diarization)の追加料金
話者分離機能を使う場合は、通常の文字起こし料金に約$0.0015/分が加算されます。1時間の会議録音に話者識別を適用した場合、追加コストは約$0.09(約¥13)です。
TTS(音声合成)料金 — Aura-2
テキスト読み上げのAura-2は文字数(Characters)課金です。
| モデル | 料金 |
|---|---|
| Aura-2 | $0.015/1,000文字 |
1万文字(日本語の一般的なブログ記事2〜3本分程度)で$0.15(約¥22)です。
Voice Agent API料金
対話型ボイスエージェントを構築する場合の料金です。
| プラン | 料金 | 特徴 |
|---|---|---|
| Standard LLM + STT + TTS | $0.048/分 | Deepgram内蔵LLM使用 |
| Custom BYO LLM | $0.056/分 | 自前のLLMを組み込む場合 |
| Custom BYO LLM + TTS | $0.050/分 | LLMとTTSを外部から持ち込む場合 |
無料枠の詳細
サインアップで付与される$200クレジットの内訳イメージ:
| 用途 | $200での利用可能量 |
|---|---|
| Nova-3 プリレコード | 約46,500分(約775時間) |
| Nova-3 ストリーミング | 約25,974分(約433時間) |
| Aura-2 TTS | 約13,333,000文字 |
クレジットに期限はなく、使い切るまで有効です。クレジットカード登録も不要なため、まずは無料で試してから判断できます。
Growth Plan(年間契約)
月間150時間以上の大規模利用を予定している場合、Growth Planがあります。
- ストリーミング: $0.0065/分(PAYG比約15%割引)
- 年間契約のみ・詳細は営業窓口へ
APIキーの取得手順

APIキー取得からテスト実行まで、実際の操作手順を追います。
STEP 1: アカウント作成
- deepgram.com にアクセス
- 「Start for free」→ メールアドレスまたはGoogleアカウントでサインアップ
- メール認証後、ダッシュボードへ
STEP 2: APIキー発行
ダッシュボードの「API Keys」→「Create a New API Key」をクリック。
- Name: 任意のキー名を入力(例:
my-project-key) - Permissions: 用途に応じて選択(Member / Administrator)
「Create Key」を押すと、APIキーが表示されます。この画面でコピーすること(再表示不可)。
STEP 3: 環境変数への設定
# .env または .bashrc に追記
export DEEPGRAM_API_KEY="your_api_key_here"
```python
# Pythonでの読み込み
api_key = os.environ.get("DEEPGRAM_API_KEY")
APIキーをコードに直接書かないこと。GitHubへの誤コミットを防ぐために環境変数管理が必須です。
## PythonでDeepgramを使う実装例
### 基本的な文字起こし(プリレコード)
```python
# インストール
# pip install deepgram-sdk
deepgram
# クライアント初期化
deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))
# ローカルファイルを文字起こし
def transcribe_file(filepath: str) -> str:
with open(filepath, "rb") as audio:
buffer_data = audio.read()
payload = {"buffer": buffer_data}
options = PrerecordedOptions(
model="nova-3", # 最新モデル指定
language="ja", # 日本語指定
smart_format=True, # 句読点の自動挿入
diarize=True, # 話者識別ON
punctuate=True, # 句読点追加
)
response = deepgram.listen.prerecorded.v("1").transcribe_file(
payload, options
)
return response.results.channels[0].alternatives[0].transcript
# 実行例
transcript = transcribe_file("meeting_audio.mp3")
print(transcript)
### URLを指定して文字起こし
```python
from deepgram
deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))
# URLから直接文字起こし(ファイルダウンロード不要)
source = UrlSource(url="https://example.com/audio.mp3")
options = PrerecordedOptions(
model="nova-3",
language="ja",
smart_format=True,
paragraphs=True, # 段落分割
summarize="v2", # 自動要約(英語のみ対応)
)
response = deepgram.listen.prerecorded.v("1").transcribe_url(source, options)
transcript = response.results.channels[0].alternatives[0].transcript
print(transcript)
### リアルタイムストリーミング文字起こし
マイクからの入力をリアルタイムで文字起こしする例です。
```python
deepgram
DEEPGRAM_API_KEY = os.environ.get("DEEPGRAM_API_KEY")
async def realtime_transcription():
deepgram = DeepgramClient(DEEPGRAM_API_KEY)
dg_connection = deepgram.listen.asynclive.v("1")
# コールバック関数定義
async def on_message(self, result, **kwargs):
sentence = result.channel.alternatives[0].transcript
if sentence:
print(f"[リアルタイム] {sentence}")
dg_connection.on(LiveTranscriptionEvents.Transcript, on_message)
# ストリーミングオプション
options = LiveOptions(
model="nova-3",
language="ja",
encoding="linear16",
channels=1,
sample_rate=16000,
interim_results=True, # 中間結果を返す
endpointing=300, # 無音検出(ms)
)
await dg_connection.start(options)
# マイク入力ストリーム
p = pyaudio.PyAudio()
stream = p.open(
format=pyaudio.paInt16,
channels=1,
rate=16000,
input=True,
frames_per_buffer=1024,
)
print("🎙️ 録音中... (Ctrl+Cで停止)")
try:
while True:
data = stream.read(1024)
await dg_connection.send(data)
except KeyboardInterrupt:
pass
finally:
stream.stop_stream()
stream.close()
p.terminate()
await dg_connection.finish()
asyncio.run(realtime_transcription())
### 話者識別(議事録向け)
```python
from deepgram
deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))
with open("meeting.mp3", "rb") as f:
buffer = f.read()
options = PrerecordedOptions(
model="nova-3",
language="ja",
diarize=True, # 話者識別ON
smart_format=True,
punctuate=True,
)
response = deepgram.listen.prerecorded.v("1").transcribe_file(
{"buffer": buffer}, options
)
# 話者ごとに整理して出力
words = response.results.channels[0].alternatives[0].words
current_speaker = None
segment = []
for word in words:
speaker = word.speaker
if speaker != current_speaker:
if segment:
print(f"[話者{current_speaker}] {' '.join(segment)}")
current_speaker = speaker
segment = [word.word]
else:
segment.append(word.word)
if segment:
print(f"[話者{current_speaker}] {' '.join(segment)}")
## JavaScript(Node.js)での実装
```javascript
// npm install @deepgram/sdk
const { createClient } = require("@deepgram/sdk");
const fs = require("fs");
const deepgram = createClient(process.env.DEEPGRAM_API_KEY);
async function transcribeFile(filepath) {
const audioBuffer = fs.readFileSync(filepath);
const { result, error } = await deepgram.listen.prerecorded.transcribeFile(
audioBuffer,
{
model: "nova-3",
language: "ja",
smart_format: true,
diarize: true,
}
);
if (error) {
console.error("エラー:", error);
return;
}
const transcript = result.results.channels[0].alternatives[0].transcript;
console.log("文字起こし結果:", transcript);
}
transcribeFile("audio.mp3");
## DeepgramのTTS(音声合成)Aura-2の使い方

テキストを音声に変換するAura-2の実装例です。
```python
from deepgram
deepgram = DeepgramClient(os.environ.get("DEEPGRAM_API_KEY"))
SPEAK_OPTIONS = {"text": "こんにちは。Deepgramの音声合成APIのテストです。"}
options = SpeakOptions(
model="aura-2-shiori-ja", # 日本語女性ボイス
encoding="linear16",
container="wav",
)
# 音声ファイルとして保存
response = deepgram.speak.v("1").save("output.wav", SPEAK_OPTIONS, options)
print(f"生成完了: {response.filename}")
<strong>Deepgramの日本語ボイス一覧(2026年4月時点)</strong>
| ボイス名 | 性別 | 特徴 |
|---------|------|------|
| aura-2-shiori-ja | 女性 | 標準的な日本語、明瞭な発音 |
| aura-2-hoshi-ja | 男性 | 落ち着いたトーン |
## Deepgramの日本語対応の実態
Deepgramは公式に日本語対応を明示していますが、実際の使用感には注意点があります。
### STT(音声認識)の日本語精度
Nova-3の日本語精度は英語と比較すると<strong>若干落ちる</strong>というのが正直なところです。
- <strong>標準的な話し言葉</strong>: 良好(業務上の会話程度なら十分)
- <strong>専門用語・固有名詞</strong>: 精度が下がる傾向。「キータームプロンプティング」機能で補正可能
- <strong>方言・話し癖が強い音声</strong>: 精度が落ちやすい
Qiitaのベンチマーク記事(2026年)によると、Deepgram Nova-3の単語誤り率(WER)は日本語で約5〜8%程度とされています。一般的な議事録用途では十分実用的な数値です。
### TTSの日本語品質
Aura-2の日本語音声は自然な発音ですが、長文の読み上げでは<strong>アクセントの不自然さ</strong>が出ることがあります。ナレーションや音声案内など、品質が最重要の用途では<strong>[ElevenLabs](/tool/elevenlabs)</strong>や専門の日本語TTSサービスとの比較検討をおすすめします。
### APIでの言語指定
```python
# 日本語を明示指定する場合
options = PrerecordedOptions(
model="nova-3",
language="ja", # "ja" または "ja-JP" どちらも有効
)
# 自動言語検出(多言語混在音声に有効)
options_auto = PrerecordedOptions(
model="nova-3",
detect_language=True, # 自動検出
)
## 他の音声認識APIとの比較
### Deepgram vs AssemblyAI vs Whisper
| 項目 | Deepgram Nova-3 | AssemblyAI | OpenAI Whisper API |
|------|----------------|------------|-------------------|
| <strong>プリレコード料金</strong> | $0.0043/分 | $0.0025/分 | $0.006/分 |
| <strong>ストリーミング料金</strong> | $0.0077/分 | $0.0025/分 | 非対応 |
| <strong>無料枠</strong> | $200クレジット | $50クレジット | なし |
| <strong>レイテンシ</strong> | 300ms以下 | 中程度 | バッチのみ |
| <strong>日本語精度</strong> | 良好 | 良好 | 最高クラス |
| <strong>話者識別</strong> | あり(+$0.0015/分) | あり(Standard以上) | なし |
| <strong>SDK</strong> | Python/JS/Go等 | Python/JS等 | Python/JS等 |
| <strong>音声合成(TTS)</strong> | あり(Aura-2) | なし | あり(別API) |
### どれを選ぶべきか
<strong>Deepgramを選ぶべき場合:</strong>
- リアルタイムストリーミングが必要(ボイスアシスタント・ライブ字幕)
- 文字起こし+TTSをまとめて1社で完結させたい
- 無料枠が多い方が助かる($200は圧倒的)
- ボイスエージェントAPIを使いたい
<strong>AssemblyAIを選ぶべき場合:</strong>
- バッチ処理が中心で、料金を最安に抑えたい($0.0025/分)
- 日本語より英語がメイン
- 感情分析・トピック検出など付加機能を重視
<strong>OpenAI Whisper APIを選ぶべき場合:</strong>
- [ChatGPT](/tool/chatgpt)やGPT-4とのエコシステム統合が重要
- 日本語精度最優先(Whisperは日本語に強い)
- バッチ処理のみ(リアルタイム不要)
## 編集部の検証メモ
### 検証の観点
音声認識APIは「料金体系のわかりやすさ」「日本語の実用性」「リアルタイム対応の有無」の3軸で評価軸を整理しました。バッチ文字起こしとリアルタイム配信では求められる性能が異なるため、用途を切り分けて比較するのが妥当だと判断しています。
### 公開情報からの比較整理
主要な音声認識APIを公開情報ベースで整理すると以下の通りです(2026年4月時点、詳細は各社公式の最新ページを参照)。
| 項目 | Deepgram Nova-3 | OpenAI Whisper API | AssemblyAI |
|------|-----------------|---------------------|------------|
| プリレコード料金 | $0.0043/分〜 | $0.006/分 | $0.12/時間〜 |
| ストリーミング | 対応($0.0077/分〜) | 非対応(自前実装必要) | 対応 |
| 日本語対応 | STT・TTSとも対応 | 対応(精度評価高め) | 対応 |
| 無料枠 | サインアップで$200クレジット | 無料枠なし(従量課金のみ) | サインアップでクレジット付与 |
| 商用利用 | 公式に商用ライセンス明記 | API利用規約に準拠 | 商用利用可 |
公式仕様から判断する限り、Deepgramは「ストリーミング対応 × 低単価」の組み合わせが強み、Whisperは「単発のバッチ処理での日本語精度」、AssemblyAIは「話者分離・要約などの後処理機能」に寄せた設計と整理できます。
### 編集部の総合判断
- <strong>リアルタイム文字起こし・音声エージェントを組みたい人</strong>: Deepgram。レイテンシと単価のバランスが公開情報上で最も良好。
- <strong>バッチで日本語の議事録を高精度に起こしたい人</strong>: Whisper API(または Whisper 系OSS)。ストリーミング不要なら第一候補。
- <strong>話者分離・自動要約までAPI側に任せたい人</strong>: AssemblyAI。後処理パイプラインを自前で組む工数を削れる。
## よくある質問
### Q. Deepgramに無料プランはありますか?
クレジットカード不要で<strong>$200分のクレジット</strong>が付与されます。これはプリレコード換算で約46,500分(775時間以上)に相当します。個人開発・学習・プロトタイプ作成には十分な量です。クレジットを使い切った後は、従量課金に移行します。
### Q. 料金はいくらから?月額固定プランはありますか?
基本は完全従量課金で、月額固定のプランはありません。Nova-3プリレコードで$0.0043/分から始まります。月間150時間以上の大規模利用者向けにGrowth Plan(年間契約、料金割引あり)が用意されており、詳細は営業窓口への問い合わせが必要です。
### Q. 日本語の文字起こし精度はどの程度ですか?
Nova-3の日本語は十分実用的です。標準的な会議・インタビュー音声であれば、単語誤り率5〜8%程度(Qiitaベンチマーク2026年データ)。ただし英語と比較すると精度は若干落ちます。専門用語が多い場合は「キータームプロンプティング」機能で認識精度を上げられます。
### Q. WhisperやAssemblyAIと比べて何が違いますか?
最大の違いはリアルタイムストリーミングのレイテンシと、TTS・Voice Agent APIも含めた音声AI統合基盤であること。AssemblyAIのバッチ料金($0.0025/分)と比べると高めですが、Deepgramは無料枠が$200と4倍大きく、ストリーミング用途では業界最速クラスのレイテンシを実現しています。
### Q. 商用利用は可能ですか?
はい、商用利用可能です。企業向けには専用のエンタープライズプランも用意されており、2026年2月にはIBMとのパートナーシップも発表されています。データプライバシーやSLAが必要な場合は、エンタープライズプランを選択してください。
### Q. Deepgramのデータ保存ポリシーは?
デフォルトでは、文字起こしのために送信した音声データは<strong>処理後に削除</strong>されます。APIパラメータ`no_store=true`を指定することで、データを保存しないよう明示的に設定することも可能です。EUリージョンのエンドポイント(api.eu.deepgram.com)を使えばデータ処理をEU内に限定できます。
## Deepgramを試してみる
Deepgramは$200の無料クレジットからすぐに始められます。クレジットカード登録も不要です。
```bash
# クイックスタート(curlで即テスト)
curl \
--request POST \
--header 'Authorization: Token YOUR_API_KEY' \
--header 'Content-Type: audio/mp3' \
--data-binary @sample.mp3 \
--url 'https://api.deepgram.com/v1/listen?model=nova-3&language=ja&smart_format=true'
まずこの1コマンドで動作確認してみましょう。レスポンスのJSONに`results.channels[0].alternatives[0].transcript`として文字起こし結果が返ってきます。
リアルタイムボイスアシスタントから議事録自動生成まで、音声AIの可能性を広げたいなら、Deepgramはまず試す価値があります。
## 関連記事
- [【2026年最新】Claid AI完全ガイド|EC商品画像を自動で高品質化・料金・使い方・API活用術](/mag/claid-ai-guide-2026)
- [【2026年最新】Claude API完全ガイド|使い方・料金・Python実装を徹底解説](/mag/claude-api-guide-2026)
- [【2026年最新】Amazon Bedrock完全ガイド|とは何か・料金・使い方・始め方を徹底解説](/mag/amazon-bedrock-guide-2026)
