コード化法について

コード化法（音声処理法）について

㈱日本コクレア　副社長　渡　辺　真　一

皆さん、こんにちは。コクレア社の渡辺です。私は人工内耳の担当をしていますが、技術的なことを中心に仕事していますので、今日はいろんな疑問がありましたら後で質問してください。今日は、はじめはコード化の話、そのあとに、電池の話をしたいと思います。

スピーチプロセッサで行われているコード化法（音声処理法とも言いますが）についてお話ししたいと思いますが、これは大変に説明しづらい課題です。なるべくわかりやすく解説させていただくつもりですが、ご理解いただけなかった部分はあとでご質問ください。

まず、基本的なところから耳の構造について見ていきたいと思います。（ビデオになっているので見てください）。このように耳の内部は外耳、中耳、内耳に分けられます。一番奥の内耳の中に人工内耳の電極が挿入されるわけです。ちなみにここに太く見えているのが神経です。今、耳を見て頂きましたが、次は人工内耳についてみて頂きます。

外部の耳掛け型スピーチプロセッサと内耳に挿入された電極を示しています。外部からデータが送信コイルを通して（今、裏側に見えていますが）内部のインプラントに伝えられることにより電極に電気刺激が発生します。

もう一度見てください。これが今外部のところですね。これがインプラントです。電極がずーっとこの蝸牛、かたつむりの管の中に挿入されています。
どのようなデータが送られてくるかにより、どこの電極にどれくらいの電流が流れるかが決まります。蝸牛の入り口の１０本の電極は補助電極と言って実際には電流は流しません。この奥の２２本を使って音を伝えます。
この蝸牛の入り口の所、それから奥の所、神経がここに来ています。これが聴神経です。今、こうやって赤く光っていますが、これが電気刺激という風に考えて下さい。これは強く光ったり弱く光ったりしますが、電気の強さが変わるわけです。

実は蝸牛の中のどこの電極を刺激するかというのは、音を伝えるに当たって非常に重要なことです。この図に示すように、蝸牛の位置によって反応する周波数が分かれています。すなわち蝸牛の入り口付近では高い周波数を、奥に行く程低い周波数を感じるようになっています。ピッチとは音の高さですが、これを蝸牛の場所－ピッチ（音の高さ）理論と呼んでいます。
この蝸牛の中のどの電極を刺激するかというのが重要なところになっています。
では、コード化の基本に入ります。

音声を周波数で分析していくと、いくつかのピークが見えてきます。このピークをフォルマントと呼んでいますが、この特徴的なピークが音声毎に異なるために区別ができるわけですが、その特徴をうまく捕らえて電気信号に変換する行程を音声処理（コード化）法と呼んでいます。これがコード化法の基本です。
グラフを見て頂くとわかるように、横が周波数。音の高さです。縦軸が音の大きさ。振幅値を表します。こういうグラフはこの後もよく出てきますので、よく見ておいて下さい。

音声を周波数で分析したものをスペクトルグラムと呼んでおりますが、特にあ、い、う、え、おというような母音ではこのようにはっきりとしたピークが得られます。スペクトルピーク（SPEAK）コード化法では、音声スペクトルをそのまま電極での刺激の場所と強さに変換します。

ですから、例えば、母音の「ア」や「イ」ではこのようなパターンで刺激が行われます。いわゆる場所－ピッチ（音の高さ）理論に合った電気刺激が行われることになるわけです。
ですから、これ、「あ」、「い」ですけど、「う」も「え」もこのパターンとは異なります。

ここで、今のスペクトルピークコード化法に至るまでのいろいろなコード化法の歴史を見てみたいと思います。最初、電気刺激はなるべく単純に行うという考え方があったために、母音で最もそれぞれの違いが大きく現れる第２フォルマントを電極の番号に振り変えるＦ２コード化法というものが開発されました。この前にＦ０というのがついていますが、ここでＦ０というのは刺激のレートが各人の声帯の性質で決まる周波数となっていることを示しています。これを基本周波数と言っています。これだけではあまりにもシンプルすぎて区別がなかなかつかないということで、次に少し情報を増やそうと言うことになり、第１フォルマントの情報も追加されました。これで２つですね。そしてＭＳＰと言うスピーチプロセッサでマルチピークコード化法というものが開発され、スペクトルピークコード化法に至っております。より高い周波数を２つ追加するということで４つになっています。フォルマントがどのような形をしているか、簡単な周波数分析器を用意しましたので見てみましょう。
これがスペクトルグラムというものです。これが周波数、こちらが音の強さになりますが。たとえば、「あー」という音ですね。ここに高いピークが出ると思うんですが、これが基本周波数になります。もう一度行きます。「あー」「あー」ちょうど、ここですね。だいたい１２０、あ、１５０ぐらいですね。これが基本周波数。で、第１フォルマント、第２フォルマント、第３フォルマントというようにこのようなピークがでてきます。この基本周波数は「あ」も「い」も「う」も変わりません。「イー」この同じところに基本周波数があると思います。「うー」やっぱり同じように１５０くらいのところに・・ただし、こちらの方はそれぞれ異なってきます。このように音は、それぞれ音の特徴というものを持っています。それを電極に振り分けることによって音の違いをとらえていると。

先ほどのコード化法の種類とそれぞれの成績を示します。最初のＷＡＰと言うスピーチプロセッサではせいぜい３０％止まりと言うことなので、非常に低い値なので、しゃべっていることの１／３も分からないと言うことになります。それに対してスペクトラによるスペクトルピークコード化法では８０％近く理解できると言うことですから、格段の進歩があったわけです。
これはどんな試験方法かというと、読話は無しです。口を見ずにヒントもなしに何かの文章を聞いたときの正答率ということになります。
それでは新しいコード化法について少しお話ししたいと思います。

Ｎ２４システムになり、新しいコード化法が開発されました。今までは、スペクトルピークコード化法のようにどちらかというと刺激をする場所を特定したコード化法でした。一方で、新しく開発されたのは刺激のレート、すなわち時間情報を高めたコード化法でした。シスコード化法というのがその一例です。

今までがスピークコード化法。それから、新しく開発されたのが時間ですね。刺激レートを協調したコード化法で、例としてはＣＩＳというコード化法です。それで、ちょっとそれを比較してみますと、最初にＳＰＥＡＫコード化法、今までの方法ですが刺激レートは中程度です。スペクトルグラムに合わせてスペクトルの情報を強調したものです。
ＣＩＳコード化法、これはですね、高い刺激レートで比較的少数、電極の２２の中の４つとか６つとか８つとか１２とか。ごく一部を使って刺激場所を刺激する。刺激レートと刺激場所をそれぞれ可変することができます。すなわち時間情報を協調するコード化法ということになります。
それで、最後にＡＣＥコード化法が出てきましたが、これは高い刺激レート。これはＣＩＳと同じです。それから刺激場所が２２までできます。スペクトルグラムに合わせた刺激場所を選べる。同様にレートと場所は自由に設定可能です。すなわち、ＳＰＥＡＫとＣＩＳの両方の情報を強調できる。

スピークコード化法のように場所（スペクトルの形の）情報を強調するものと、シスコード化法のように刺激レート（時間の）情報を強調するものがあり、またそれらをミックスさせたエースコード化法と呼ばれるものが生まれました。このエースコード化法ではスペクトル情報と時間情報の両方を強調できることになります。

では、実際の電極にはどのような刺激が伝わるのでしょうか？ちょっと見づらいかも知れませんが・・これがその図ですが、縦軸は電極番号、横軸は時間となります。シスコード化法では一定の電極のみが刺激されていることがわかります。１、２、３・・４つですね。それに対し、スピークコード化法とエースコード化法は一見よく似た形をしていますが、エースコード化法の方が幅広く、しかも速いタイミングで刺激を行っていることが分かります。

それで今のパターンを音符のおたまじゃくしに変えてみました。音楽のイメージで見てください。このように、四分音符で刺激をしている。ですからゆっくりした音符ですね。それに対してシスコード化法では１６分音符とかもっと速い音符で和音を流す。エースコード化法はこのＳＰＥＡＫとＣＩＳの両方をとった形。いろんな音符を使って速い和音を流しています。

もう一度それぞれのコード化法をまとめておきたいと思います。スピークコード化法は刺激場所を強調したコード化法で、音声情報は主に刺激をうける場所でプログラムされる。音声スペクトルグラムのパターンを電極に移動。刺激場所が移動するコード化法であること。詳細な音のスペクトル情報を伝達。チャンネル毎の刺激レートは２５０ｐｐｓで、総刺激レートは約１５００ｐｐｓなどです。これがそのパターンですが、これが電極の番号。こちらが時間ですね。これは電極の刺激パターンを時間の経過と共に見たものです。「チョイス」という言葉を話しています。

シスコード化法は刺激レートを強調したコード化法で、刺激場所よりも刺激レートを強調。このコード化化法では、蝸牛内の決まった刺激箇所を刺激します－４、６、８、１２箇所。チャンネル毎の刺激レートは主に８００ｐｐｓとスピークコード化法に比べて速くなっています。すなわち詳細な音の時間情報を伝達。総刺激レートは約１４，４００ｐｐｓとなっています。ですから詳細な音の時間情報を伝達する方法ということになります。これが同じくチョイスと言う言葉をしゃべったときの電極の図です。このように決まった電極が刺激を受けている。六つですね。六つの電極が刺激を行っています。

エースコード化法はスペクトルピークコード化法を発展させた新しいコード化法で、刺激場所と刺激レートの両方を強調したコンビネーション型のコード化法。音のスペクトル情報を最適化します。すなわち刺激場所が変化し、選択できる電極数は最大２２でその数が刺激可能箇所です。音の時間情報を最適化します。すなわち速い刺激レート(最大２，４００ｐｐｓ)で、総刺激レートは約１４，４００ｐｐｓとなります。電極の刺激図です。
同じく「チョイス」という言葉ですが、先ほどのＳＰＥＡＫと較べて非常に細かいです。３つをちょっと比較してみましょう。これが音声スペクトルグラムです。スピークコード化法、それからシスコード化法、それから、エースコード化法ですね。

電極の刺激図ですが、エースコード化法はスペクトルピークコード化法に比べて横軸の色が大変細かくなっていて、元の音声スペクトルグラムと比べて非常に近似した波形となっています。

コード化法の変遷と聞き取り成績の進歩を示します。最新のコード化法を使用することで今まで以上に成績が向上しています。
このエースコード化法はスプリントというスピーチプロセッサですね。それを使うことによって可能です。現在ではエスプリという耳かけ型プロセッサでも一部が可能になっています。

これが成績ですが、研究によりますと一人一人の装用者によってどのようなコード化法が合うかは個人差があり、その人の特性に合ったコード化法を採用することが大切であると言われております。これは海外で行われたＮ２４システムの３つのコード化法の成績を比較した研究です。６２名の成人の装用者全員が３つのコード化法を試しました。コード化法は緑がＳＰＥＡＫ（スピーク）、赤がＣＩＳ（シス）、黄色がＡＣＥ（エース）です。左型は静かな場所での文章テスト、右側が雑音下での文章テストの結果です。そして、黒につきましては、装用者によってどのコード化法が最も成績が良かったかは異なるわけですけれども、３つのうち最も聞き取りが良かったコード化法を採用した場合の平均値です。全体的にはACEの成績が良いわけですが、個人にあったコード化法を採用するとさらに良い成績が得られていることがおわかりいただけると思います。

このようにして、静かなところでは７８％、雑音下では７６％、と言う成績が得られています。ということで、コード化法のお話し、終わります。
ご静聴ありがとうございました。ご質問がありましたらお願いいたします。