AIによる音声認識技術により、自動で議事録が作成できるという『ZMEETING』。
このサービスを提供するHmcomm(エイチエムコム)株式会社から、エレコムのノイズリダクションヘッドセットについて問い合わせがあった。正確な音声認識のためには、入力する音声の質がとても大事だとのことで、この製品に興味を持たれたようだ。
最先端の議事録作成ツールとはどのようなものか、そしてエレコムのヘッドセットとの相性は?さっそくヘッドセットの開発担当者とともに、同社を訪れてみた。
会議などの議事録を作成したことがある人なら、「音声文字起こし作業」の大変さをおわかりだろう。複数の参加者の声を聞き分け、話す内容を注意深く確認しながら、キーボードをたたいてテキスト化していくのはとても骨の折れる作業だ。ライターとして音声文字起こしをすることが多い筆者の印象では、だいたい収録時間の5~6倍はかかる。 近年、音声認識技術が進歩し、スマートフォンのアプリなどでもかなり正確な音声認識ができるといううわさを聞いて実際に試したことがあったが、ICレコーダーに収録した音声では、とても使い物にはならなかった。スマホに口を近づけて話してもらえれば正確性も上がるのかもしれないが、そのようなシチュエーションは実際にはありえないだろう。
しかし、その状況は大きく変わりつつあるという。ディープラーニングによる音声認識技術の向上により、議事録のテキスト化がかなりの精度でできるのだそうだ。そのトップランナーともいえるのが、Hmcomm株式会社の『ZMEETING』だ。
Hmcomm社が提供する音声認識ソリューションとは
Hmcomm株式会社は、国立研究開発法人産業技術総合研究所(以下、産総研)発のベンチャー企業として、ディープラーニングを用いた研究/開発を行っている。提供している主なサービスは、音により異常を検知する「異音検知システム」や、AIによる自動応答・テキスト化ができる「音声認識・自然言語解析処理システム」などがある。
ZMEETINGは、Hmcomm社が提供するAI議事録自動作成ツールである。同社が得意とするディープラーニングによる音声認識技術に関する特許取得技術をベースに、音声認識率90%以上を誇る高精度な音声のテキスト化を可能にしている。
まず、川井氏のノートPCで実演していただいた。PCに接続したモニターには、ZMEETINGの機能について話す同氏の言葉がどんどんテキスト化されていく。ノートPCのマイクで声を拾っているのだが、かなりの高精度で、しかも速い。時折、滑舌のあやしくなったあたりで誤変換も見られるがそれもかなり少ない。
「PCの前で話す分には、かなりの認識率になっていることがおわかりいただけると思います。ただ、マイクから離れるにつれ、やはり認識率は低くなっていきます」と川井氏。その言葉も正確にテキスト化されている。これなら、オンライン会議のテキスト化も満足できるレベルになるだろう。
「お客さまからは、ZMEETINGの認識率について高く評価をいただいていますが、認識率はどんな品質の音声を入力するかによって大きく変わってきます。周囲の雑音が入ってくるような状況では、90%は出ないと思います。当社では、お客さまに提案するために、会議用マイクシステムやヘッドセットなどをいろいろテストしているのですが、そこでエレコムさんの製品にも注目して連絡をとらせていただきました(川井氏)」
テキスト化された言葉は、一節ごとに音声とともに保存され、聞き比べて修正することもできる。
周囲の音を消し、自分の声だけが鮮明に相手に届くノイズリダクションヘッドセットHS-HP101UNCBK。
Hmcomm社の川井氏が注目したのが、「デュアルマイクノイズリダクションシステム」を搭載したHS-HP101UNCBKだ。このヘッドセットは、マイク側にノイズリダクション機能を持たせており、話し手の声だけをクリアに伝えてくれるのだという。
「今回の製品では、2つのマイクを利用したノイズリダクション機能を搭載しているんです。1つは人の声を拾って、もう1つは環境音を拾います。そのうえで、内部の回路を使って環境音を除去して、自分の声だけを伝えるという仕組みです」と、開発チームのリーダーであるエレコムの島村氏は語る。この製品は、コロナ禍で急増しているテレワークやオンライン会議などで、周囲の音を気にせずに話せるよう開発された製品だという。早速そのノイズリダクション効果を、ZMEETINGで試してみた。
周囲の雑音(環境音)を拾うマイクと、口元の音声(通話音)を拾うマイクの2つのマイクを搭載。DSPで音声処理する「デュアルマイクノイズリダクションシステム」により、不要なノイズをカットし口元から発した音声のみをクリアに相手に伝えます。
最大-35dBのノイズカット性能を発揮。地下鉄車内(80dB)で通話している状況でも、相手には静寂な図書館内で会話しているように聞こえる圧倒的なノイズカット性能を発揮します。
ヘッドセットをセッティングし、テストのためにすぐ近くにスマートフォンを置き、YouTubeの音声を大音量で流してみた。耳障りなほどのボリュームのため、これは大丈夫かなと心配になるが、川井氏の声だけがどんどんテキスト化されていく。結果は予想以上だった。「ホッとしました」とエレコムの島村氏の顔がゆるむ。
ZMEETINGでは、テキスト化と同時に音声も収録されているため、1節ごとに音声を参照しながらテキストを校正できる機能も持っている。試しにいまのシーンの音声を再生してみたところ、まったく雑音は排除されていて、静かな部屋でしゃべっているとしか思えない。これには、川井氏も驚きを隠せない。
「あれだけのボリュームなので、少しは雑音が入っているかなと思いましたが、まったくなかったですね。これだけクリアな音声であれば、どのような環境でもテキスト化ができるはずです」
コロナ禍が長引く中、企業においてはオンライン会議やテレワークが当然というライフスタイルが定着している。音声認識率90%以上という実力を持つZMEETINGと、外部の音をほとんどカットできるノイズリダクションヘッドホンの組み合わせは、会議の議事録をとる企業やオンラインでの商談をするビジネスパーソンにとって大きなソリューションになるだろう。(取材日:2022年3月)
Hmcomm社での取材の様子。
ノイズリダクション効果に驚く川井氏。
(右より)
Hmcomm株式会社
技術開発センター シニアセールスマネージャー
川井 伸夫 氏
エレコム株式会社
家電開発部 オーディオチーム
島村 晃
※当社で、表記のアプリケーションやソリューションの動作を保証するものではありません。また、各アプリケーションやソリューションの詳細内容は、提供する各社にお問合せください。
※法人様向け「導入ご相談 / 製品・サービスの販売」以外のお問い合わせは、回答致しかねますのでご了承ください。
製品に関する技術的なお問い合せに関しましては、下記リンクからお問い合わせください。