DEV Community

朝倉匡廣
朝倉匡廣

Posted on

第3世代音声評価エンジン「Dolphin AI」が正式に発表されました!

世界先端の英語スピーキング評価(Pronunciation Assessment API Solution)

第3世代音声評価エンジン「Dolphin AI」が正式に発表されました!
中英文の音声評価技術は、中英語のリスニングおよびスピーキング教育、社会的な試験などさまざまなシーンで広く利用されており、教育情報化と学業試験改革によりよい影響をもたらすため、中心となる技術の自己開発を実現するため、専門家チームのリーダーシップと研究者の不屈の努力のもと、10か月をかけて、幅広い権威あるテストや業界の主要顧客の実証実験および総合的な適用を経て、第3世代の音声評価エンジンDolphin AIを全産業向けに正式にリリースします。

Dolphin AIの音声評価技術は、専門家による評価基準に基づいて開発されており、英語、中国語など多言語をサポートし、基本的なタイプと高度なタイプの両方に適用され、高速で正確な評価、包括的な寸法、安定したサービス、簡単なアクセスなどの利点を備えています。この音声評価技術のアップグレードは、Dolphin AIがAI音声評価分野でさらに一歩踏み出し、業界のトップレベルに進出することを意味しています。

01 Dolphin AI第3世代技術フレームワークの概要
前の世代の評価技術は混合モデルに基づいており、このモデルは訓練が難しく、頑健性が低く、リソース要件が大きいなどの欠点がありました。一方、Dolphin AIの第3世代音声評価技術は、深層学習のエンドツーエンドフレームワークを基盤としており、前者を基にさまざまな革新が行われています。

まず、言語モデルを統合しました。これにより、既存のテキストデータを活用し、コンテキスト情報の収集を通じてモデルのコンテキスト理解能力を向上させることができます。次に、エンドツーエンドフレームワークをベースに、マルチタスク学習アルゴリズムを使用し、音素と単語の両方をモデル化し、追加の有用な情報を得ることができます。さらに、複数の関連タスクを学習することで、モデルはより良い汎化能力を持つことができます。

02 評価が正確で速度が速く、頑健性が高い
第3世代の音声評価エンジンは、多言語をサポートし、基本的なタイプと高度なタイプの両方に適用され、クラウドサーバーに展開できるようになり、フレームワークがより統一されています。 Dolphin AIの改良されたエンドツーエンドフレームワークは、大規模な音声およびテキストデータの効果をより引き出し、認識の精度を向上させ、音素レベルの精度が25%以上向上しています。

篇章タイプの入力音声の長さが長い(最大3分)、モバイルデバイスでの篇章タイプのオフライン展開には課題があります。高い計算リソースとメモリ要件により、モバイルデバイスモデルを低性能の携帯電話で展開することが難しい状況でしたが、Dolphin AIのエンドツーエンドフレームワークにより、計算メモリが約50%削減され、同時に計算速度が約50%向上しました。このため、モバイルデバイスでも音素、単語、文、篇章などすべての基本タイプを容易にサポートできるようになりました。
実験室でトレーニングされたエンジンは、複雑なノイズ環境に置かれると、その認識精度が急激に低下します。これらのノイズは、チャネルのずれ、環境ノイズ、汚染されたテストデータとトレーニングデータの不一致から主に生じます。データ拡張技術はノイズ、話速、残響、音声振幅、クロスチャネルなどの多角的な視点からトレーニングセットを数万時間に拡張し、モデルが多様な実際のシナリオで安定した効果を発揮し、さらにモデルの頑健性を向上させ、より正確な評価スコアを得ることができます。

03 さまざまなアプリケーションシナリオや評価要件を包括的にサポート
第3世代の音声評価技術は、さまざまなタイプの評価をサポートし、単語、文、篇章などの結果を出力し、同時にユーザーの読み上げ中の話速や一時停止の回数などをインテリジェントに検出します。評価結果はミリ秒単位で返され、遅延が少なく、迅速な応答が可能です。

プラットフォームはオンラインおよびオフラインの呼び出しをサポートしており、開発者が音声評価機能を迅速に組み込めるように、Web APIやAndroid、iOS、H5、C++などのプラットフォームSDKを提供しており、さまざまなシーンでの開発ニーズに対応しています。

音声評価技術の発展を人類の進歩にたとえるなら、第一世代は蒸気時代であり、音声評価はコンピューターを利用した検出に偏っていました。第二世代は電気時代であり、音声評価は独自のモデルを持ち、徐々に正しい方向に進んでいきました。そして第三世代はインターネット時代であり、音声評価の性能がより安定し、検出速度も速くなり、学生により的確な個別化されたトレーニングを提供することができます。

未来、Dolphin AIは音声評価技術をさらに向上させ、教育のデジタル化と知能化を推進し、学習者により質の高い音声学習サービスを提供し、試験、教育、練習のすべてをサポートし、個別化された評価がプラットフォーム全体に及ぶようにします。

Introduction
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。

独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。

また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

Top comments (0)