スマートフォンのジャイロセンサを使って周囲の音声を解析する 65
ストーリー by hylom
動きを音に 部門より
動きを音に 部門より
あるAnonymous Coward 曰く、
ジャイロセンサー(角加速度センサ)はほとんどのスマホに搭載されているが、マイクを使わずにジャイロセンサーから得られる情報を使って周囲の音声を解析する、という手法が開発されたという(GIGAZINE)。
スタンフォード大学の研究チームによると、ジャイロセンサーから得られる超長波情報をもとに、周囲の会話の内容を認識可能なレベルにまで解析できることが判明したそうだ。実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。スマートフォンのジャイロセンサーは高い頻度で動きを検知でき、たとえばAndroidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。
問題点として、iOSやAndroidではジャイロセンサーを利用する際にユーザーからの許可が必要ないということが挙げられている。そのため、ユーザーが意識することなしに盗聴などが行われる可能性があるという。また、iOSでは動き検出感度が最大100回/秒に制限されているため、Android端末よりは音声の解析が難しいそうだ。
200Hz以下ってことは (スコア:3)
ウーファーとかサブウーファーでずんどこ音を鳴らしておけば攪乱できるってこと?
駅前をぐるぐる回ってる例の車達、わりとセキュリティ意識が高かったんだな(白目
Re:200Hz以下ってことは (スコア:1)
ポテチの袋をしょっちゅう放置しているうちはセキュリティ意識が低すぎだったかも。w
そのうちスマホのカメラで撮影した動画からも音が復元できるようになったりして。
# あれは普通じゃ手に入らないようなハイスピードカメラだけど
Re: (スコア:0)
今回の発見で低周波での音声認識というテクニックが出てきたのでスマホカメラでも比較的容易に解析可能になるかも?
後例のポテチ論文は、ハイスピードカメラと同時に普通の60fps撮影なデジタル一眼レフカメラでもローリングシャッターの原因となる原理を利用して質は悪いですが音声復元可能と発表してます。 [youtu.be]
Re: (スコア:0)
べっ別にセキュリティの為に貧乏ゆすりをしてるんじゃないんだからねっっ!!
Re: (スコア:0)
200Hzの貧乏ゆすりですか
Re:200Hz以下ってことは (スコア:1)
貧乏ゆすりの主運動(?)は周波数が低かったとしても、その運動で生まれた”音”の振動が低いとは限りませんよね。
つまり貧乏揺すりとノコギリと弓を組み合わせることで
あらゆる言葉を表現することも可能ッッッ!!!
♪お~ま~え~は~ア~ホ~か~?
Re:200Hz以下ってことは (スコア:1)
Re: (スコア:0)
人間では 16Hz くらいが最高じゃなかったっけ?
Re:200Hz以下ってことは (スコア:1)
16Hzと言うと、高橋名人かな。
Re: (スコア:0)
200Hz以下ってことは、嘘八百レベルの研究、というか単なる話題つくりに過ぎないということ
固定電話程度の品位の音声伝送の帯域幅は300Hz~3kHz程度、無線などで了解度は低下するものの何を言っているのか分かる(なんとか言語的メッセージの伝達が出来る)最低限の帯域幅は500Hz~2kHz程度
200Hz以下で音声認識というのは専門家からは相手にされない極めて特殊な条件下で実験しましたということです
Re: (スコア:0)
誰が音声伝送の話をしてるの?
Re: (スコア:0)
そうか、素人には音声認識と音声伝送は同じことだということが理解できないのか......(音声伝送=音声波形伝送じゃないよ)
Re: (スコア:0)
Re: (スコア:0)
引用元どころかGIGAZINEすら読もうとしないのはどうかと……。
GIGAZINEには「人間の耳にとってはほんのわずかな風切り音のようなもの」が音声認識プログラムにより判別可能になると書かれていますよ。
引用元をざっと翻訳すると、
Gyrophone: Recognizing Speech From Gyroscope Signals [stanford.edu](※PDF)
Re: (スコア:0)
引用元どころかGIGAZINEどころかタレ込み文すら読もうとしないのはどうかと……。
>実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができたとのこと。
といったことが書かれています。(コピペのミスがあったら失礼)
Re: (スコア:0)
?
タレコミの「実験では個人を特定できるレベルの情報はもちろん、社会保障番号やクレジットカード番号まで得ることができた」というのは、全文を音声認識できたという意味ではないですよ。
まさか、この段階に至ってもGIGAZINE記事すら読んでいないのですか?
Re: (スコア:0)
ジェイムス・カーでもないかぎりは普通にしゃべってりゃ大丈夫。
気になるなら裏声で喋ったらいいよ。
低いなぁ (スコア:2)
アナログ時代のNHKの時報の「ポッ」が440Hz(「ぴーん」は880Hz)で、その1オクターブ下って、バリトンかバスの人の音域ですね。
その音域で歌える人はかなり少ない。喋るよのと違うけど。
まあ、言語には、様々な周波数の成分が含まれるので、その一部を拾っていってるんだろうけど…
Re:低いなぁ (スコア:2)
基本周波数と,その高調波の和が音声として聞こえると考えると
納得できる数字ですね.
三角波を,それなりに三角形にするためには,5次高調波くらいの
周波数成分を重ねあわせないといけません.
音声も,正弦波でなく「人の声」に聞こえるように音色を再現する
には,5次高調波くらいの成分が必要なのでしょう.
重箱の隅 (スコア:2)
> ジャイロセンサー(角加速度センサ)は
ここまで読んだ時点で、?でした。
回転運動に対するセンサには、角度[度]、角速度[度/s]、角加速度[度/s^2]が測れるものがありますが、一般的には、コリオリの力(フーコーの振り子のあれ)を使った角速度が測れるセンサが一般的です。ジャイロセンサというのもコマが回っているのは原理的に角速度センサです(光ファイバとか、ガスレートはジャイロと呼ぶけどまた原理が別)。大抵は回転角度情報が欲しいので角速度を一回積分して角度情報を取り出します。角加速度だと2回積分が必要で精度が悪くなってしまいますので角速度の方が都合がよいのです。
一方、直線運動に対するセンサにも、変位[m]、速度[m/s]、加速度[m/s^2]が測れるものがありますが、やはり一般的には梁のようなばね-マス系の撓みを使った加速度が測れるセンサが一般的です。実はこちらも角度情報を取り出すために使われていて、重力の互いに直行する3軸へのベクトル分解の比率から、地面に鉛直方向に対するセットの姿勢を割り出します。
この話題では、スマートフォンが話し声でぐるぐる回りそうにないし、1回余計に微分が入って微小なズレでも感度がある「加速度センサ」といいたかったのではないかと想像します。
要するに (スコア:1)
マイク無しでも盗聴されるから安心できんてことだ。
音声に限らず他の手段も増えてくるんだろうなー
the.ACount
1秒間に200回まで動きの検知が可能というなら (スコア:0)
Androidであれば1秒間に200回まで動きの検知が可能であるため、これを利用することで200Hzまでの音声情報を検出できるという。
それが200Hzでサンプリングしていると言う意味なら、それから得られる元の音声に忠実な成分の周波数はせいぜい100Hzどまりじゃないのか?
Re: (スコア:0)
取得できるのがスカラーではなくベクトルなので、
普通のサンプリングとは違うのかも
肝心なところ (スコア:0)
**********
なぜジャイロセンサーで音を録音できるのかというと、Androidではジャイロセンサーに200Hzもしくは1秒間に200回までの動きを検知できるように設定しているからであり、この「200Hz」という数値は人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできるからです。
**********
Re:肝心なところ (スコア:2, 参考になる)
人間の声の周波数帯域である80Hz~250Hzをほとんどカバーできる
シッタカぶっていい加減なことを書かないように。
じゃあ何で初期の電話のデジタル回線のサンプリング周波数は8kHzまであったと思ってるの?
音声周波数帯域 [wdic.org]
人間の声は、その主成分はおおむね0.2〜4kHzの周波数範囲にあるとされている。
Re:肝心なところ (スコア:2)
音楽で使う周波数を調べれば、実態が分かる。
基本音とされるC4が440Hz。
これは、実際に話す際の音よりも意外と高い。
あとは、1オクターブで倍半分なのを思い出せば、基音の周波数もすぐに分かるかと。
で、別コメだと声帯は100~200Hzらしいから、人間は普段から裏声を常用してるって事なのかな?
-- Buy It When You Found It --
Re: (スコア:0)
Re: (スコア:0)
間違った情報を、確認も取らずに「これが肝心なところ」とそのまま引用してくるのは、無実なのか?
Re: (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
Re: (スコア:0)
常識を”間違った情報”というあなたこそその証を示すべきではないの?
だからリンクを貼ったでしょ。読んでごらん。
~250Hzでほとんどカバーできるなら、電話のサンプリング周波数も600Hz程度で済んだんだよ。
そのほうが安上がりに済むのに、わざわざデータ量がかさむ8kHzサンプリングにしたのは、
最低そのくらい無いと相手が何を言っているのか聞き取れないから。
8kHzサンプリングでも、相手の声色など微妙な部分を聞き分けるのには不十分で、旧来のデジタル電話では、
電話を通すと誰が話しているのか区別をつけにくかった。
今回の実験だって、
スタンフォード大学のYan Michalevsky氏とRafaelのGabi Nakibly氏によっ
Re:肝心なところ (スコア:2)
原音を再現できるかどうかという意味での「サンプリング定理」と、
「低サンプリングレートなデータに解析に必要じゃ情報が含まれているかどうか」は区別しないとダメですよ。
サンプリング定理は、「200Hzでサンプリングした標本データからは、100Hzまでの信号を正確に再現できる」というものです。これは、「200Hzでサンプリングした標本データには、100Hz以上の周波数の信号が情報として含まれない」というわけではありません。
実際には、100Hzを超えた周波数の信号は100Hzまでの範囲に折り畳まれてデータ化されます。つまり、120Hzの信号は、見かけ上80Hzの信号のような形でデータになりますし、180Hzの信号は20Hzになり、さらに上の周波数ならさらに折り返されて240Hzの信号は40Hzになったりする。
このとき、見かけ上80Hzのデータは、本当に80Hzの信号なのか、元は120Hzの折り返し雑音なのかは判別はまったく不可能です。
そこで、信号処理においては、標本化する前にローパスフィルタを通して、高周波数の信号は無い状態で取り込むのが普通。
今回のようなジャイロセンサーには入力段にローパスなどは入っていないでしょうから、200Hzサンプリングでも、100Hz以上の振動信号が折りたたまれてデータ化されることになるでしょう。
このサンプリングデータは「自分で聞いてみて、認識できる」ようなものではありませんが、「100Hz以上の信号も情報としては含まれている」のです。
あとは「同じように畳み込まれた音声見本データ」を多数用意した上で、「畳み込まれたデータ」の上での認識システムを構築すれば、
「音声の、100Hz以上の成分の違い」を区別できるような「ジャイロセンサーからの音声認識」ができるようになるわけです。
#つまり、ここでいう「機械学習システム」は、「100Hzに畳み込まれたデータ」から、「人間の発生パターンに限定する」ことで、「折りたたみ前のデータを推定する」という学習システムってことになるかと思います。
Re: (スコア:0)
という文脈で勝手に音声認識の話をされてもな。
スレ頭から読み直せ。
Re: (スコア:0)
それは声帯が出せる音域をカバーするためであって、肉声の主な音域が200Hz辺りだというのは間違ってない。
Re: (スコア:0)
肉声の主な音域が200Hz辺りだというのは間違ってない。
ソースをどうぞ。
音声周波数帯域 [wdic.org]
中間周波数はおおむね1kHz前後とされており、この前後の周波数をある程度網羅できれば、
その全ての周波数を網羅せずとも音声を見分ける(聞き分ける)ことが可能な音質が実現できる。
フォルマント [wikipedia.org]
Re: (スコア:0)
それは「人間が聞いて認識できない」だけであって、今回のは記録した信号を再生して聞くわけじゃなくプログラムに解析させるわけだから話がズレてるんじゃ?
Re: (スコア:0)
同じページに
音声の源となる声帯振動は会話の時は100~200Hz付近で
とあるのに。全部読もうよ。
Re:肝心なところ (スコア:1)
Re: (スコア:0)
よく読むべきなのは君の方。
声帯の振動が100~200Hzで、それが
この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、
さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。
この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、
我々が普段耳にしている音声へと変わる。
だから、声帯の振動周波数が100~200Hzでも、発声される音声の主要成分が100~200Hzの範囲にあるというわけではないの。
字面を眺めているだけで、全然文章の意味を理解しようとしていないでしょ?
Re: (スコア:0)
音声として認識できないようなデータから意味を拾える程度の音声データを復元できるってニュースなのに
音声として認識できないできないって騒いでるやつなんなの。
Re: (スコア:0)
この伸びているツリーでのトピックは「人間の声の周波数帯域である80Hz~250Hz」ってのは間違いだろ、と言う話。
話をすり替えようとしているのはそっち。
実際、収集できるデータが、センサーの制限で、音声の主要成分の周波数域をはずしているので、
機械を使って解析技術を駆使しても、高々65%までしか精度をあげられない。
髪型だけで人を見分けようとするような話。
Re: (スコア:0)
つまり、
髪型だけ見分ければよい用途には、それで十分という話。
Re: (スコア:0)
この場合、聞いて認識するのは人間じゃないから。
Re:肝心なところ (スコア:2)
(200, 250][Hz]をカバーしていないのに、80Hz~250Hzの殆どなのかー。
Re: (スコア:0)
(#2694623)以下のコメントも、
あなたのいう”引用範囲のような常識の範囲のこと”を知らずに語っているようだったので挙げたまで。
そうだ! (スコア:0)
一秒間200回以上口を動かせばいいんだ!(違
マルチコプタが (スコア:0)
盗聴機能も潜在的にに持っているということだな…
---------------------------- うちの猫は、ながぬこ
さすがiOS (スコア:0)
つまりiOSは盗聴が難しいという事か!(FBI長官)(ちょっと違
Re:さすがiOS (スコア:2)
盗聴は分からないけど、元ネタは、FBI長官がiPhone 6のセキュリティが高度でけしからんと述べた話。
FBI長官、iPhone6を批判「法の適用を免れさせる商品」 [sankei.com]
盗聴の話ではないので、ちょっと違うと。
#ちなみにこのネタはタレ込んだが、採用されていない。
あれ?ジャイロって加速度センサーで無いの? (スコア:0)
スマホの加速度センサーならkHzレベルも普通に読めるよ?
Re:あれ?ジャイロって加速度センサーで無いの? (スコア:1)
当然ですが,元の論文で詳細に説明されています
https://www.usenix.org/system/files/conference/usenixsecurity14/sec14-... [usenix.org]
この論文の2.3.1節よると
- 携帯電話のマイクロフォンは最大44.1KHzで音声をサンプリングできる
- 電話(昔のアナログ方式)は8KHzで音声をサンプリングしていた
- STMicroelectronics製のモバイル端末用ジャイロセンサは,デバイスとしては最高800Hzで計測できる
- InvenSense製のモバイル端末用ジャイロセンサは,デバイスとしては最高8KHzで計測できる
- ただしモバイル端末は電力を節約する必要があるので,OSでサンプリングレートを制限している
- 彼らの調査によると, Android 4.4 の制限値は200Hz, iOS 7は100Hz
とのことです
また,彼らの調査によると
iPhoneなどのAppleのデバイスは,入力段にローパスフィルタを入れているようで
iOS7でのサンプリング周波数は100Hzですが,エイリアシングを回避する工夫がなされていたとのことです.