タグ別アーカイブ: ヴィジョン

動画の中の人が何をしているか分かるアルゴリズム、開発される « WIRED.jp

マサチューセッツ工科大学(MIT)のポスドクであるハメド・ピルシアヴァシュ(Hamed Pirsiavash)と、同氏の論文指導者だったカリフォルニア大学アーバイン校のディーヴァ・レマナンは、動画から、お茶を淹れる、テニスをする、ウェイトリフティングをするといった特定の行動をコンピューターで検索する機能を向上させるために、自然言語処理の技法を取り入れた。

この行動認識アルゴリズムは、これまでのアルゴリズムより高速であるほか、完了していないアクションもうまく推測をすることが可能だ。そのため、ストリーミング動画も扱えるという利点がある。
この研究では、自然言語処理をコンピューターヴィジョンに応用している。あらゆるアクションのさまざまな構成要素を、文章をさまざまな要素に分解するのと同じやり方で分解しているのだ。要するに、ひとつのアクションを「サブアクションの連なり」に分ける、「人間の動きの文法」のようなものをふたりは提案したわけだ。
そのためには、さまざまなサブアクションの間の関係性を定義する必要があった。
この新しい文法によるアルゴリズムをつくるため、ふたりは機械学習を用いた。特定のアクションを描いた動画でシステムを訓練し、アルゴリズムがそこで探すべきサブアクションを明確にした。その際、そのサブアクションが何であるかや、サブアクション間の推移がどんなであるかに関する情報は一切与えなかった。
システムは、例を大量に蓄積していくことで、「映像内の特定のポイントで繰り返し行われる要素」を突き止める仕組みになっていた。こうすることで、サブアクションがあらかじめきちんと分類された訓練データなしで、アクションの文法を一から新しくつくることができる。
システムのテストは、ウェイトリフティング、ボーリング、ダイヴィング、ハンマー投げ、テニス、やり投げ、走り幅跳び、棒高跳びの8競技で行われた。たとえばやり投げの例では、「走る」、「放す」、「投げる」に大まかに相当する3つのサブアクションを、アルゴリズムが推測した。その結果、これまでのアルゴリズムと比べて優れていることが判明したという。

引用元: 動画の中の人が何をしているか分かるアルゴリズム、開発される « WIRED.jp.

米国で話題のオンラインアイウェアショップ「ワービー・パーカー」創業の裏話 « WIRED.jp

例えばバングラデシュ北部では、「たとえタダだとしても、キャットアイ(1970年代に流行したメガネのデザイン)をかけるぐらいなら、何も見えない方がいい」という反応を示す人たちを目にしたという。

そこでヴィジョン・スプリングは人々に好まれるデザインで、しかもリーズナブルな価格のメガネづくりにとりかかった。この開発の過程で、ブルメンサル氏はメガネの値段はもっと安くていい、見た目がいいからといって高くする必要はないとの考えを抱くようになる。メガネの価格を押し上げていたのは、実は流通やライセンスなどに関わる仲介業者であったと同氏は言う。

引用元: 米国で話題のオンラインアイウェアショップ「ワービー・パーカー」創業の裏話 « WIRED.jp.

数万人に1人のレベルの悪い例外が社会構造を決定する – @fromdusktildawnの雑記帳

数万人に1人のレベルの悪い例外が社会構造を決定する – @fromdusktildawnの雑記帳: リアル社会でも、ネットでも、ごくごく例外的な人々が、社会構造のかなりの部分を決定してしまっている。

よりよい社会のヴィジョンを描くとき、この「例外」が社会に対して持つ構造決定力を無視して理想論をいくら語っても、それはただの夢想に留まる。

だから、よりよい社会を求める人間こそ、この、ごくごく例外的な人たちがどのような人間で、何を考え、どう行動するのか、彼らが持つ社会構造の決定力は具体的にどのようなものなのか、念入りに見極める必要があるのではないかと思う。