顧客対応

音声AI・音声認識

Voice AI / ASR

X投稿テキスト

音声AI・音声認識とは、人間の声をテキストに変換したり（ASR）、テキストを自然な音声で読み上げたり（TTS）するAI技術の総称。電話対応の自動化・コールセンター支援・議事録の音声入力などに活用されています。 #ジェネサプ #AI用語

詳しい解説

音声AI・音声認識とは、音声関連のAI技術の総称で、大きく2つに分かれます。①ASR（Automatic Speech Recognition：自動音声認識）＝音声をテキストに変換する技術、②TTS（Text-to-Speech）＝テキストを音声に変換する技術です。

OpenAI Whisperは高精度な多言語音声認識モデルで、日本語の文字起こし精度が高く会議録作成や電話音声のテキスト化に使われます。ElevenLabsはリアルな音声合成ができるTTSサービスで、動画ナレーション・音声案内・AIアバターの声として活用されています。

コールセンター・電話対応・音声メモ・動画制作など、「声」が絡む業務全般にAIが入り込んでいます。

会議の自動文字起こし：ZoomやTeamsの会議音声をNottaやOpenAI Whisperで自動文字起こしし、そのテキストをChatGPTで要約・議事録化するフローは、会議録作成の工数をほぼゼロにします。日本語対応が実用レベルに達しています。

電話対応の一次自動応答：代表番号にかかってきた電話を音声AIが受け、「○○については1を、○○については2を押してください」のような振り分けから、定型質問への自動回答まで担うシステムを、中小企業向けのクラウドPBXとAIの組み合わせで実現できます。

「音声AIは日本語が苦手」は2023年以前の話です。OpenAI Whisperを始め、現在の音声認識モデルは日本語の精度が大幅に向上しており、標準的なビジネス会話であれば95%以上の認識精度が出るケースも増えています。

OpenAI Whisper（音声→テキスト）ElevenLabs（テキスト→音声）Notta（日本語議事録）VOICEVOX（日本語TTS）