
入力音声の言語識別技術

特徴・優位性
- 1.06秒程度の発話で、10言語を92%以上の精度で識別
- 言語設定の必要なく音声認識・自動翻訳が可能
- 多言語音声翻訳アプリ “VoiceTra” に実装済み
- ライセンシー希望歓迎
用途・応用分野
- ショップの接客向け翻訳技術
- 自治体の窓口や消防、警察、救命救急など、緊急時の外国語対応
- 多国籍企業や国際会議の円滑なコミュニケーション

概要
人の発話が何語であるのかを入力音声のみから識別する10言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア、フランス、スペイン)の言語識別技術を開発しています。(令和2年8月に、対象言語にフランス語、スペイン語を追加し、10言語を識別可能となりました)。
従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションではあまり使われていませんでした。これに対して、言語識別に必要な発話の特徴を精度よく抽出し、かつ、高速演算できるニューラルネットワークを使用することにより、発話の先頭1.06秒程度の短い時間で10言語に対して92%以上の識別率を実現しました。
本技術により、何語を話しているか分からない外国人の言葉も即座に識別し、言語設定の必要もなく音声認識や自動翻訳ができるようになります。VoiceTraでもこの機能をお試しいただけます。
現在、さらなる識別精度向上や、識別言語数の拡大を目指して研究開発を行っています。 (2025年6月19日更新)



入力音声の言語識別技術
関連情報
- プレスリリース:2019.10.1. 多言語音声翻訳アプリ “VoiceTra”(ボイストラ)が自動で言語を識別(https://www.nict.go.jp/info/topics/2019/10/01-2.html)
担当部門
ユニバーサルコミュニケーション研究所 総合企画室・
先進的音声翻訳研究開発推進センター 先進的音声技術研究室