株式会社homula~LiveKit・Deepgram・ElevenLabs統合で0.9秒応答を実現、セルフホスト運用にも対応~
エンタープライズ向けAIエージェント導入支援を手がける株式会社homula(本社:東京都港区、代表取締役:福地峻、以下「homula」)は、エンタープライズ企業向けに「
音声AIエージェント導入支援サービス(Voice Agent Platform)」の提供を開始いたします。
本サービスは、LiveKit・Deepgram・ElevenLabs等のグローバル最先端音声AI技術を統合し、0.9~1.2秒の低遅延リアルタイム応答、業務システムとのセキュアな接続、監査・権限・運用設計までを包括的に提供するものです。金融、医療、製造等の規制業界を含む幅広いエンタープライズ環境において、PoCで止まらない本番導入を前提とした音声AI基盤を構築します。
Agent Skills開発・導入支援サービスページ:
https://www.homula.jp/services/voice-agent
お問い合わせ企業のDX推進が加速する中、チャットボットやRPA等によるテキストベースの業務自動化は急速に進んでいます。一方、電話・音声によるコミュニケーション業務は、その非構造的な特性から自動化が遅れており、コンタクトセンター、受付業務、フィールドサービスなど多くの領域で人的リソースへの依存が続いています。
2024年後半以降、音声AI領域で3つの技術的ブレイクスルーが同時に発生しました。Deepgram Nova-3やGoogle Chirp 3に代表される音声認識(STT)精度の飛躍的向上、ElevenLabsやDeepgram Aura-2による人間レベルの音声合成(TTS)の実現、そしてLiveKitやPipecatによるリアルタイム音声オーケストレーション基盤の成熟です。
これらの技術進化により、従来のIVR(自動音声応答)では不可能だった自然な対話体験の提供が技術的に可能となりました。しかし、これらのグローバル最先端技術を日本のエンタープライズ環境に統合し、業務システムとの連携やガバナンス要件を満たしながら「業務として成立する」形で導入・運用できるインテグレーターは極めて限られています。homulaは、この市場ニーズに応えるべく本サービスの提供を開始します。
1. 0.9~1.2秒の低遅延リアルタイム音声対話ストリーミングパイプラインの全段並列化とスペキュラティブ実行により、従来型音声ボット(2~4秒)の2倍以上の高速応答を実現します。割り込み(barge-in)、相槌、沈黙制御にも対応し、人間と対話しているかのような自然な音声体験を提供します。
2. 業務システムとの確実な接続LangGraphベースのオーケストレーション基盤により、CRM(Salesforce)、チケット管理(Jira / ServiceNow)、基幹システム等との連携を「確実に動くワークフロー」として構築。通話中のリアルタイムCRM更新、通話後処理の自動化(要約生成→CRM入力→チケット起票→フォロー連絡)、VOC(Voice of Customer)自動抽出まで対応します。
3. ガバナンス・バイ・デザイン監査ログ、権限管理、データ主権、フェイルセーフを設計段階から組み込むアプローチを採用。LiveKit・Deepgramのセルフホスト構成により全音声データの処理・保存を東京/大阪リージョン内に限定し、閉域網(VPC内完結)での運用にも対応します。FISC安全対策基準に準拠した設計を標準で備え、全対話のテキストログ・音声録音を暗号化保存(5~7年)し、ISMAP / SOC2対応も可能です。
4. Human-in-the-Loop設計「AIに任せる範囲」をワークフローで明確に定義し、高リスク判定時のオペレーター自動転送、承認フローでの差し戻し・エスカレーション、禁止領域(Policy)設定と根拠提示(RAG)を組み合わせ、構造的にリスクを制御します。
5. Best-of-Breed アーキテクチャ特定ツールに縛られないコンポーザブルな設計思想により、各レイヤーに最適な技術を選定。音声AIモデルの急速な進化に追従しながら業務ロジックの安定性を維持し、ベンダーロックインを排除します。
homula Voice Agent Platformは、音声AIに求められる機能を6つのレイヤーに分離した疎結合アーキテクチャを採用しています。
最前段のVoice I/Oレイヤーでは、LiveKit Agentsがリアルタイム音声セッションの確立・管理を担い、WebRTCベースの低遅延通信を実現します。その直下のSpeechレイヤーでは、Deepgram Nova-3による高精度な音声認識(STT)と、ElevenLabsおよびGoogle Chirp 3 HDによる自然な音声合成(TTS)を組み合わせ、日本語に最適化されたチューニングを施しています。
中核となるBrainレイヤーでは、LangGraphの状態管理付きグラフ構造を活用し、ユーザーの発話意図を多段階で解釈・推論した上で最適なツール呼び出しや回答生成を行います。LLMにはClaude、GPT-4o等を要件に応じて選択可能です。Orchestrationレイヤーでは、同じくLangGraphが業務システムとの連携ワークフロー、例外処理分岐、状態永続化による監査証跡の記録を担います。
ConnectivityレイヤーではMCP(Model Context Protocol)を標準接続プロトコルとして採用し、CRM・チケット管理・基幹システムとのセキュアな接続と権限制御を実現。最下層のDataレイヤーでは、PineconeによるRAG検索基盤とSnowflake等によるログ・分析基盤が、エージェントの回答精度と運用可視性を支えます。
この6層構造により、各レイヤーのコンポーネントを独立して更新・差替え可能とし、音声AIモデルの急速な進化に追従しながら業務ロジックとガバナンス設計の安定性を両立します。
■ コンタクトセンター(全業界共通) 一次応対の自動化(本人確認→用件分類→FAQ案内→必要時にオペレーター転送) オペレーター支援(リアルタイム通話要約、次アクション提案、ナレッジ自動提示) 通話後処理の自動化(要約生成→CRM入力→チケット起票→フォロー連絡)
■ 証券・銀行・保険 株価照会、口座残高確認、保険金請求受付(FISC準拠・閉域網運用対応)
■ 医療・ヘルスケア 予約受付、検査結果案内、事前問診
■ 不動産・住宅 物件問い合わせ、内見予約、契約手続き
■ 製造・フィールドサービス 修理受付→部品照会→日程調整の一連対応自動化
■ 自治体・公共 住民問い合わせ、災害時情報提供、多言語対応
homula Voice Agent Platformは、「特定ツールに縛られないBest-of-Breed構成」と「エンタープライズ統制の標準装備」を両立する点で、既存の大手SIer型開発やグローバルSaaS製品と一線を画します。0.9秒台の応答速度と日本語専用チューニングを維持しつつ、FISC対応や閉域網運用といった国内規制業界のガバナンス要件にも標準で対応します。
申込・お問い合わせ株式会社homula 代表取締役 福地 峻「電話・音声業務は、あらゆるDX領域の中で最も自動化が遅れていた分野です。しかし2024年後半以降の音声AI技術のブレイクスルーにより、技術的には『人間と話しているような』AIエージェントの構築が可能になりました。
課題は技術そのものではなく、それを日本のエンタープライズ環境に統合し、業務として成立させるアーキテクチャ設計にあります。homulaは、コンポーザブルAIアーキテクトとして各レイヤーに最適な技術を組み合わせ、低遅延UX・業務連携の確実性・ガバナンスの3点を同時に満たす音声AI基盤を提供します。まずはPhase 0の現状診断から、貴社の音声業務の可能性を一緒に検証させてください。」
homulaは、エンタープライズ企業向けにAIエージェントの戦略策定・PoC・実装・運用・内製化までを一気通貫で支援する「コンポーザブルAIアーキテクト」です。特定のツールに縛られず、n8n・Dify・LangGraph・MCP等を要件に応じて最適に組み合わせ、LLM-Native FDE(Forward Deployed Engineer)モデルにより、1~2名で従来5~10名分の成果を実現します。自社プロダクト「Agens」と導入支援サービスを組み合わせたワンストップ支援を提供しています。累計資金調達額3.2億円。
社名:株式会社homula
所在地:東京都港区赤坂1-14-14第35興和ビル
代表取締役:福地峻
事業内容:- AIエージェント向けオンボーディング&ガバナンス基盤「Agens」の開発・提供
- n8n / Dify / LangChain / LangGraph / ChatGPT / Gemini / Claude 等を活用した業務自動化・AIエージェント開発のコンサルティング・受託開発
株式会社homula 広報担当
お問い合わせフォーム: https://www.homula.jp/contact音声AIエージェント導入支援ページ: https://homula.jp/services/voice-agent企業プレスリリース詳細へPR TIMESトップへ