コンピューターへの入力は、キーボードやマウスの他に、音声(マイク)や写真(カメラ)がある。この音声や画像の認識能力がこの1年で更に向上した。
まず、音声だが、話し言葉を認識する率はどんどん向上している。
話し言葉を認識できない割合が、昨年7月には8.5%だったのが、現在では4.9%と減ってきている。
また、Google Homeでは、人の話を認識するために8つのスピーカーを使っていたが、現在では2つのスピーカーで認識できるようになった。さらに、家庭内での6人までの人を認識することも出来る。これらの改善はディープラーニングのおかげである。
音声で改善されたのと同様に、画像でも改善は行われている。
上のような写真を見て、それがどんな場面かを読み取ることができる。写真に写っているあらゆるものを分析して、写真を総合的に判断する。上の画面のように、少年、腕、家族、パーティ、ろうそく、ケーキ、喜びの顔、などを読み取っているのだ。
従って、上のグラフにあるように、画像認識は人間よりもレベルがなくなった。
また、Google Pixlirを使用して、ノイズのある写真を、ノイズのないきれいな絵に修正できる。
上の写真が夜間に撮影したノイズのある元の写真で、下がそれをノイズを取り除いて修正した写真である。
また、写真の中の邪魔なものを取り除く技術も向上した。
上の写真のように金網が写っている写真を金網を自動的に取り除いて、下の写真のようにすることも近々できるようになる。
写真を使用したアシスタント機能も向上した。
撮った花がなんという花かを教えてくれる。
ネットワークセッティング用のIDとパスワードのバーコードを読み取り、それを使ってネットワークに接続してくれる。
街の中でお店を撮るとそのお店の情報を教えてくれる。
以上、音声と画像に関連するGoogleの取り組みの紹介があった。
登録:
コメントの投稿 (Atom)
Geminiに「お作法」としてのプロンプトは本当に必要なのか
Geminiなどの生成AIを使う際、「効果的なプロンプト(指示文)の作り方」を解説するブログや動画をよく見かけます。 例えば料理のレシピを聞く場合、「あなたはプロの料理人です」と役割を指定し、手持ちの食材や調味料を細かく入力するのが「正解」だと説明されることが多いようです。確...
-
2週間ほど前だったと思うのだが、「ディスク管理」を開こうとしたところ、 「このアプリは保護のためにブロックされました」というメッセージが出てきて、ディスク管理が使えなくなっていた。 このディスク管理が使えなくなるという問題は、ネット検索をするといくつか対処方法が書かれている。た...
-
GoogleはChromeのバージョン101をリリースした。 新しいバージョンは以下の手順で入手できる。 Chromeの画面で、右上の縦の3つの点をクリックし、出てきたリストから、「ヘルプ」を選択すると、リストが出てくる。そのリストの中の「Google Chromeについて」を...
-
Windows 10 Insider Preview Build 17711をインストールした。 マイクロソフトが現地時間7月6日にWindowsのブログで公表した。 現在、実家に来ているが、まずは実家のパソコンにインストールし、その後、自宅のパソコンを遠隔操作して...










0 件のコメント:
コメントを投稿