なんでもデジタルな生活: Google I/O Keynote: 話し言葉を聞く能力や写真を見て内容を理解する力が向上した

2017年5月17日水曜日

Google I/O Keynote: 話し言葉を聞く能力や写真を見て内容を理解する力が向上した

コンピューターへの入力は、キーボードやマウスの他に、音声（マイク）や写真（カメラ）がある。この音声や画像の認識能力がこの1年で更に向上した。

まず、音声だが、話し言葉を認識する率はどんどん向上している。

話し言葉を認識できない割合が、昨年7月には8.5％だったのが、現在では4.9％と減ってきている。

また、Google Homeでは、人の話を認識するために8つのスピーカーを使っていたが、現在では2つのスピーカーで認識できるようになった。さらに、家庭内での6人までの人を認識することも出来る。これらの改善はディープラーニングのおかげである。

音声で改善されたのと同様に、画像でも改善は行われている。

上のような写真を見て、それがどんな場面かを読み取ることができる。写真に写っているあらゆるものを分析して、写真を総合的に判断する。上の画面のように、少年、腕、家族、パーティ、ろうそく、ケーキ、喜びの顔、などを読み取っているのだ。

従って、上のグラフにあるように、画像認識は人間よりもレベルがなくなった。

また、Google Pixlirを使用して、ノイズのある写真を、ノイズのないきれいな絵に修正できる。

上の写真が夜間に撮影したノイズのある元の写真で、下がそれをノイズを取り除いて修正した写真である。

また、写真の中の邪魔なものを取り除く技術も向上した。

上の写真のように金網が写っている写真を金網を自動的に取り除いて、下の写真のようにすることも近々できるようになる。

写真を使用したアシスタント機能も向上した。

撮った花がなんという花かを教えてくれる。

ネットワークセッティング用のIDとパスワードのバーコードを読み取り、それを使ってネットワークに接続してくれる。

街の中でお店を撮るとそのお店の情報を教えてくれる。

以上、音声と画像に関連するGoogleの取り組みの紹介があった。

0 件のコメント:

コメントを投稿

登録: コメントの投稿 (Atom)