生成AIを用いた音声データ活用:記事作成プロセスの自動化

この記事は8で読めます

はじめに

生成AIの発展により、音声データの活用範囲が急速に広がっています。これまではAlexaやSiriといった音声アシスタントが中心でしたが、現在では音声データの生成や文字起こし、それらのデータを用いた記事の自動生成や顧客対応の効率化といった高度な用途が増え、多様なビジネスニーズに対応可能となっています。

しかし、この急速な発展の中で、企業や個人は最適な活用方法を模索している状況が続いています。本記事では、音声データ活用における課題を探り、その解決策として生成AIを用いた音声データ活用の事例を、弊社の実践的な取り組みを中心にご紹介します。

音声データ活用における課題

音声データの活用範囲は急速に広まっていますが、いくつかの課題が存在します。主な課題として、以下の3つが挙げられます。

音声データ活用における課題

音声データの活用範囲は急速に広まっていますが、いくつかの課題が存在します。主な課題として、以下の3つが挙げられます。

音声認識技術は静かな環境で最高の精度を発揮します。しかし、騒がしい場所では雑音やノイズを拾いすぎて認識率が低下します。そのため、ノイズキャンセリングマイクの使用や静かな環境での録音といった対策が必要になることがあります。

2. 複数人の会話の認識が困難

会議やディベートなど、複数人が同時に話す場面では、誰が発言しているかを正確に識別することが難しくなります。この問題を解決するには、スピーカーごとにマイクを分けるなどの対応が必要です。

3. 適切な音量と一般的な表現での会話が必要

音声認識には適切な音量が求められますが、常にそのような音声を録音できるとは限りません。また、方言や砕けた表現(発音辞書に含まれない単語)は認識されにくい傾向があるため、一般的な表現で話す必要があります。

弊社では、特に「2.複数人の会話の認識が困難」と「3.適切な音量と一般的な表現での会話が必要」という2つの課題に取り組んでいます。次章以降で、生成AIを用いた音声データ活用の事例を、弊社の実践的な取り組みを中心に詳しくご紹介します。

生成AIを用いた音声データ活用の事例

ここでは、生成AIを活用した音声データの活用事例として、弊社および他社の取り組みをご紹介します。

弊社の取り組み

  • ポッドキャストの音声データを用いた記事の自動生成
  • 生成AIを活用し、複数話者の音声データを高精度に文字起こし、そのデータを元に記事を自動生成するプロセスを導入しました。話者ごとの発言を識別することで、短時間で会話内容を整理し、高品質な記事作成を実現しています。
  • さらに、社内用語や専門用語にも対応可能なため、自然な文章を自動生成するコストを大幅に削減できる点も大きな強みです。
世界中の人が自分の言葉でつながる、言語の壁を壊す「AI Harbor」の挑戦|Algomatic
【注意】この記事はポッドキャストの音声データから生成AIを通して執筆された記事です。ポッドキャストを一字一句、文字起こしはしておらず、Q&A形式に変換して書き起こしています。 Inside Algomaticです。Algomaticのカンパニーの一つ「AI Harbor」でカンパニーCEOを務める原田さん(@1230yuji)と、横断CTOの南里さん(@neonankiti)のお二人をゲストにお迎えしました。AIを活用した新しい翻訳事業「Harbor翻訳」や、AI・生成AI特化の開発パートナー事業など、意欲的な取り組みについてお話を伺います。 #32 世界中の人が自

他社の事例

音声データを活用した営業日報作成
泉州池田銀行とサントリーグループは営業日報作成に音声入力システムを導入しました。携帯電話での音声入力により作業を効率化し、情報漏洩を防ぎつつ円滑な業務共有を実現しています。

音声認識AI×営業支援の活用事例を紹介!営業現場の業務効率化

児童相談所へのコールセンターAI導入
宮城県の児童相談所が2024年1月からコールセンターAIの運用を開始しています。電話内容をリアルタイムでテキスト化し、職員間の即時情報共有を可能にすることで、業務効率化と迅速な対応を実現しました。

宮城県中央児童相談所にコールセンターAIソリューション「ForeSight Voice Mining」を導入
NTTテクノクロス株式会社のプレスリリース(2024年2月16日 13時00分)宮城県中央児童相談所にコールセンターAIソリューション「ForeSight Voice Mining」を導入

ポッドキャストの音声データから記事を自動生成する

冒頭で述べたように、弊社は生成AI技術を活用して音声データの効率的な解析とコンテンツ化を実現しています。その一例として、複数話者のポッドキャスト内容を自動で記事化するプロセスを構築しました。

このプロセスでは、GeminiClaudeという2つのマルチモーダルAIチャットボットを使用しています。Geminiは文字起こしの精度が高くClaudeは自然な日本語生成が得意という特徴※があり、それぞれの強みを活かすことでより効果的な結果を得られるよう工夫しています。 ※弊社調べ

具体的なフローは次の通りです。まず、Geminiで話者ごとに音声データの文字起こしを行います。次に、指定した条件に基づいてClaudeが記事を生成します。これにより、複数人による長時間の対話を、人の介入なしで自動的に記事にまとめることが可能となりました。

作成した記事の実例

実際に弊社のポッドキャスト音声をGeminiで認識し、Claudeで文章生成を行い、自動的にインタビュー形式の記事を作成しました。

実際に生成された記事

タイトル:
「AIトランスフォーメーションの最前線:Algomatic AI Transformation(AX)が描く受託開発とプロダクト開発の融合」

記事の概要:
本記事では、Algomaticの新事業であるAX (AIトランスフォーメーション) について、Inside Algomaticのインタビューを基に詳しく解説します。AX事業の概要、目指す組織像、そして従来の受託開発とプロダクト開発の融合による新しいビジネスモデルについて、Algomatic AI Transformation(AX)の key people である南里氏と鴨居氏の言葉を交えながら紹介します。

AIトランスフォーメーション(AX)とは:従来のDXを超える新たな変革 (00:00から03:22あたり)
Algomatic AI Transformation(AX)は、従来のデジタルトランスフォーメーション(DX)の範囲を超えた、AIと生成AIを活用した新たな業務変革、組織変革を目指しています。AX事業責任者の鴨居氏は、AXについて次のように説明しています。

「AXは、DXの範囲に収まらないAIとか生成AIを活用した新たな業務変革、組織変革みたいなところを総称してAXっていうふうに呼んでいます。過去のDXでいうと、RPAを使ってどうとか、アナログペーパーの世界からデジタルに移行しましょうみたいなスコープだったのかなというふうに思うんですけど、AIトランスフォーメーションっていうところでいうと、もう少し不確実性がある業務みたいなところとかも含めて、AIでカバーしていけると考えています。」

—こぎそ:なぜ今受託をやるのでしょうか?
鴨居氏は、AXの特徴として、意思決定を伴うAIやシステムを使った業務変革を挙げています。これは従来のDXとは一線を画す approach であり、Algomatic AI Transformation(AX)が目指す新しい形の業務変革の核心を表しています。

Algomatic AXが描く新しい受託開発の形 (03:22から06:35あたり)
Algomatic AI Transformation(AX)は、従来の受託開発の課題を解決し、新しい形の受託開発を目指しています。南里氏は、その vision について次のように語っています。

「僕らがやろうとしていることって、受託の新しいやり方っていう感じを、受託自体も新しくなるし、それを全然今までやったことのない、LLMっていうものを使った手法で変えていくみたいなところなので、やっている僕らも難しいなっていうふうに思ったりする領域なんです。」

—こぎそ:日本のコンサルティング業界の特徴と課題はどのようなものでしょうか?
鴨居氏は、日本のコンサルティング業界の特徴と課題について、次のように分析しています。

「日本でコンサルティングってすごい流行ってるんですよ。一方でアメリカではあんまり流行ってないみたいな話あるんですけど、日本の組織は結構縦割りになっていてみたいな話とか、業務がある程度属人化していてオープンになっていないみたいなところがあります。そのため、ハイタッチというか人が入ってグイッと動かすっていうところにニーズがあるっていうのがコンサルティングの特徴です。

(以下略)

記事作成の自動化におけるメリット

今回、記事作成にかかった時間は、Geminiによる話者ごとの音声データ文字起こしに約5分、続くClaudeでの記事生成に約3分程度でした。

従来ですと、精度の高い文字起こしに4〜6時間、それを基にした記事執筆に2〜3日程度かかるのが一般的です。生成AIを活用した新たなプロセスを構築することで、大幅な時間短縮を実現することが可能になりました。

また、上記の結果を踏まえ、記事の自動生成プロセスで可能となったことを、【1.コンテンツ】と【2.フォーマット】の2つの観点から整理しています。

【1.記事のコンテンツに関して】

  • スピーカーごとの発言内容の認識
  • 音声のトーンや話し方を元に、スピーカーごとの発言内容を識別します。
  • スピーカーの整理が自動化され、インタビュー形式の記事を効率的に生成可能になります。
  • 要点の抽出と整理
  • 長時間のインタビューでも、重要度に基づいて情報を適切に取捨選択してくれます。
  • 自然な日本語で表現し、整理された読みやすい記事を生成します。

【2.フォーマットに関して】

  • タイトル・見出しの自動設定
  • 記事全体の内容を踏まえた適切なタイトルを設定します。
  • 各セクション内容に即した見出しを自動で設定できます。
  • 全体として統一感のある記事の生成が可能になります。
  • タイムスタンプの適切な配置
  • 音声データの時間と記事内のセクションを正確に紐付けます。
  • 音声データ参照の作業効率を向上させます。
  • インタビューの進行状況や話題の変遷を明確に表示します。

このプロセスにより、従来手作業で行っていた煩雑な編集作業を大幅に削減し、短時間で高品質な記事を生成することが可能となりました。

特に、複数のスピーカーが交わす長時間の対話を一貫性のある構成と、読みやすいフォーマットでまとめ上げる点は、コンテンツ制作における大きな革新と言えるかと思います。

おわりに

本記事では、生成AIを活用した音声データの活用事例をいくつかご紹介し、中でも弊社の事例である「ポッドキャストの音声データを用いた記事の自動生成」を中心に詳しく解説しました。

弊社の事例以外にも、営業活動やコールセンターといった様々な場面で、音声データを活用したAIソリューションが既に導入されていることをご紹介しましたが、多様なビジネスニーズがあることがお分かりいただけたのではないでしょうか。

弊社のAI Transformation(AX)事業部では、今回説明した生成AI×音声データの事例だけでなく、生成AIを活用した業務効率化の支援を行っています。
貴社のニーズに合わせた最適なソリューションを提供し、AI活用による業務変革(AX)をご支援します。

ご興味のある方は、以下の連絡先までお気軽にお問い合わせください。

AlgoMagazineを運営するAI Transformation(AX)カンパニーでは、生成AIを活用した業務効率化支援を行っています。お客様のニーズに合わせた最適なソリューションを提供し、AI活用による業務変革(AX)をサポートします。お気軽にお問い合わせ、資料請求ください。
この記事をSNSでシェアする

関連記事

生成AIに関する高い技術力と実績に基づく有益な情報をメールマガジンで配信しています