心音、声、産業音…あらゆる音をデータ化し異常を予測できる未来。20年のエンジニア経験を元に、「音」×「AI」の難題に挑む。

心音、声、産業音…あらゆる音をデータ化し異常を予測できる未来。20年のエンジニア経験を元に、「音」×「AI」の難題に挑む。

2021.11.05


 AIによって様々な技術が進化しつつある現代において、AIによる「音のデータ化」というビジネスを掲げたHmcomm。20年間のソフトウェア会社勤務を経て培った知見から、起業し、国立研究開発法人産業技術総合研究所(以下、産総研)発のベンチャー企業として、様々なアイデアを生み出しています。産業から医療、インフラまで幅広く応用の利く音の技術を研究する、Hmcomm株式会社代表取締役CEO三本幸司氏に話を伺いました。

​​

音✖️AI事業開発の引き金となったフィリピンでの経験


飯野 Hmcommは、産総研との関わりが、今の音事業の始まりだったと伺いました。産総研との関わりについてお伺いできますか?

三本 当社は、つくばに本拠を置く産総研発のベンチャー企業として独自の音声認識技術を研究・事業化しています。元々は、産総研で「音」について研究した成果を社会に実装していくということを目指してスタートしました。
起業前は、富士ソフトという企業に20年余り勤めていたのですが、会社を飛び出してから色々なプロジェクトに関わる中で「音」に注目し、研究を深めたいと考えて、産総研の門を叩きました。

飯野 AI業界においては、画像認識の分野はかなりの会社が活躍されていますが、音の領域はまだまだこれから開拓の余地があるように思います。三本さんにとって「音」ビジネスに取り組んだきっかけや魅力を教えていただけますか?

三本 最初のきっかけはフィリピンのコールセンターを視察したときの経験です。色々な大学やオフショアの会社へ視察に行きました。フィリピンの経済の中心で数多くの高層ビルが数多く立ち並ぶマカティという都市があります。そこの視察先で高層ビル一棟すべてがコールセンターになっているところがありました。欧米からたくさんの仕事を受託しているようで、注意して見ていると、そのコールセンターのスタッフは電話を聞きながら同時に忙しく書き起こしをしていました。「会話履歴を文字にすると、そこからいろいろな価値が生まれるんだ」と現地のスタッフに説明を受けて、「そういえば日本のコールセンターはどうなっているのだろう」と気になり始めました。
人間が書き起こすのではなく、音声認識技術を使えばビジネスになるんじゃないかなと。

起業した当時は、GoogleやAmazonなどの汎用音声認識エンジンの精度が少しずつあがり始めた状況でした。ヒューマノイドロボットなどに実装されたり、AIスピーカーなどの製品が出始め、急速に個人向けの音声認識を搭載したサービスや製品が出てきていました。
「音声認識を民主化するんだ!」と意気込んでみたもののビジネスの場で「音」を扱うのは簡単ではないことに気がつきました。
まず始めにセキュリティの課題があります。次に肝心な認識精度においても、汎用音声認識エンジンではまだまだ課題が残る状態でした。
例えば、会議室や電話の会話における音声データ活用や、音声での報告書の入力など、雑音耐性が悪かったり、専門用語をチューニングする仕組みがないなど、あまり実用的ではありませんでした。しかし、他がやれていないからこそ、我々が手がける大きな価値があるんじゃないかと考え産総研の研究成果をブラッシュアップして実用化する道を選択しました。

音のデータ化で小さな変化を掴む。異常検知機能がこれからの暮らしを支える



飯野 実際に最近手掛けているコールセンターでのプロジェクトにおいて、新しいアイデアやビジネスとして、どのようなものがありますか?

三本 今コールセンターでのプロジェクトにおいて取り組んでいるのは、「非構造化データを分析する」ことです。単なる音声をテキスト化するだけの“プロダクト”から“ソリューション”への移行を目指しています。例えば、お客様の声を分析する際に、お客様との会話履歴のみならず、過去のお客様の要望や購買履歴などをアドオンすることで現在の製品の改良ポイントを発掘したり、新しい製品の企画に活かしたり、また販売方法を見直すことで受注成功率の改善など、具体的に改善提案できるソリューション・ベンダーへの転地を加速しています。

飯野 異音検知というサービスもやられてますよね。これは具体的にはどういうものなのでしょうか?

三本 音の特徴量を抽出・分析して異常点を摘出するのが異音検知です。
産業音からの異常検知や、人間や動物の声、聴診音から疾病検知できないかと考えています。
例えば、わざわざ病院に行かなくても、音で診断できるシステムは、技術的には実現可能です。異常を音で可視化したものが、レントゲンのような形で診察の際に活用できることを目指しています。
聴診音についてはインドの病院と提携して日々聴診データを送ってもらっています。インド人だから肺音、心音が違うことは勿論ありません。
音声と異なり異音には国境や言語の壁が存在しないので、グローバルで通用できる分野だと考え、日々研究と実用化に取り組んでいます。

飯野 実際に実証実験やサービスは進めていらっしゃるんですか?

三本 人間の聴診音はかなりのデータが蓄積していて、肺の病気の可視化ができる状態まできています。波形データにノイズが乗っているデータと、症例を突き合わせて予測するという仕組みです。
医療機器認可はまだされていないので、今は診断には使えないのですが、可視化ができるところまで来ています。また、精神疾患や認知機能においても、声から異常を検知する研究も着手しています。

飯野 将来的に、スマホで自分の健康状態が分かるようになると面白いですね。産業音の分野で実際に手掛けているプロジェクトについても教えてください。

三本 いま、実際に取り組んでいるのは、東京都で進めているJRさんとの取り組みです。
終電から始発までの数時間では、点検が少しの距離しか進まないという課題があります。そこをAIを使って検証して時間短縮や、人手に頼らない方法で解決できないか、という東京都のプロジェクトに参画をしています。
あとは、一般的な在来線(営業車両)にマイクを設置して、レールのゆがみやひずみなどを音によって検知できないかとも。
これまで人間が夜間に音で検査していたものを、AIでモデル化し、省人化や時間の短縮に貢献することができないかなどを実証中です。これらの技術は鉄道だけではなく、様々な産業に展開できるはずです。

技術をマーケットインさせることの難しさと向き合いながら音の可能性を追求したい


飯野 日本の研究者の方々はとことん深くまで研究されていると感じますが、海外と比較して、光る技術が一気に花咲かすという結果につながりにくいのが残念だと感じます。

三本 たしかに、技術面において優れていても、マーケットと技術をつなげて拡げていく知見者が少ないのかもしれませんね。だから費用対効果やマーケットプライスなどを常に検証し改善することが必要ですね。目新しい商品を受け入れるような人たちには刺さっても、市場拡大させるためには、マーケットインの考え方は必須のことだと感じています。

飯野 三本さんの将来に対するビジョンや思いが伝わってきます。会社を成長させるには「人」がなにより重要ですね。

三本 そうですね。ベンチャーですから、ビジョンに向かってひとかたまりになることが大切ですが、同時に、個々が確立し、尊重しあえることもまた必要だと思うんです。
リサーチャーやエンジニアなどの専門職は、それぞれにやりたいことや個々のスタイルがあります。
当社では、Googleさんを倣って「勤務時間の1割は、自分の好きな時間に使っていい」と決めて、個人個人で色々な知見をためる時間に使ったり、色々な技術コンテストに何人かでチームを組んで挑戦したり、それぞれ様々な事をしていますね。

誰もができることをやっていても、Hmcommを設立した意味はないと思っていますから、できないことをどんどん実現していくという取り組みを、メンバーにはして欲しい。
ですから、会社が成長するという目標の下に個人が追い付いてくるという考えよりは、個々が成長していくことで、会社が成長していくという考え方を大事にしたいと思っています。

「音」×「AI」は難易度が高く、技術に深く踏み込んで、専門家として技術を製品としてお客さまに提供する企業というのは、非常に少ないです。

音の特徴量などをモデル化して標準化させながら、歪みや環境音の処理を最適化し、AIに学習させるという事は、実は画像分析よりも難易度が高い。
だからこそ、誰もができないことを実現できる「音のスペシャリスト集団」として、希少価値の高い存在であり続けたいと思っています。