労働集約型人工知能あるいは「半労半算」

podcastleというポッドキャストを日本語で検索できるサービスがスタートしている。このプロジェクトの最も興味深い所は、「認識結果をみんなで訂正する」という発想だ。

日本語には,同音異義語が多数あります.また,聞きとりにくい音声は,人間が聞いても間違えてしまうことがあります.そのような音声は,コンピュータにも認識できません.また,音声認識技術はまだまだ研究段階なので,人間には容易に聞き分けられる音声でも間違えてしまうことがあります.つまり,音声認識では認識誤りを避けることができないのです.

そこでPodcastleでは,音声認識の持つ最大の欠点である認識誤りを, みんなで訂正するという方法で克服できるのではないかと考えました.検索されたポッドキャストは,簡単な操作で認識誤りを訂正することができます.訂正した結果を共有することによって,徐々に正しい認識結果を検索することができるようになっていくはずです.

そして、音声を聞きながら認識結果を閲覧、訂正していく画面は、Webとは思えないほどインターフェースが工夫されているので、ぜひ、一度試してほしい。この「人力で訂正する」という機能が、このプロジェクトにおいて重要な位置づけにあることの表れだろう。

試しに日本Rubyカンファレンス2006における高橋征義氏の「Rubyの歴史」を見てみたら、最初のスピーカー紹介の所が「高橋さんは日本不妊学会の会長で」と認識されていて、日本Rubyの会の会長職の他にそんなことまでなさっていたのかと驚いてしまったのだが(笑)、現状では認識精度はあまり高いとは言えない。しかし、判断するのはまだ早い。

Podcastleは,成長する検索エンジンです.みなさんが認識誤りを訂正すると,単に認識結果が修正されるだけではなく,音声認識システム自体が,どのような音声が間違えやすいか,何が本当の解だったのかを知り,学習して成長していくのです.その結果,これまでよりももっと音声認識の精度が上がっていきます.

つまり,認識誤りを訂正することによって,みんなで音声認識システムを育てていることにもなるのです.

訂正の結果は、認識エンジンにフィードバックされていき、精度は上がっていくとのことだ。

このように、シンプルなアルゴリズムでもデータ量によって複雑なアルゴリズムによってよい解を出すという可能性については、ずいぶん前に最上嗣生さんが、次のように考察されている。

もし仮に全世界のユーザの何割かがgoogle検索エンジンをつかっているように、もし全世界のユーザの何割かが単一のメールサービスを使う日が来たとする。すると、単に「あらかじめメーリングリストの許可を得ずに1万人以上にメールを出したものはスパム」というような機械的なルールでスパムを排除できる。この方法はいろいろ提案されているスパム対策のどれよりも強力でかつ正確だ。複雑なスパムフィルタのアルゴリズムよりも単純なあし切りのほうがより正確だということは面白い。

これは、サンプル数が巨大であれば単純なアルゴリズムのほうが、サンプル数の少ない場合の人工知能的な複雑なアルゴリズムよりもずっとうまく働くということだ。

私は、この記事に巨大データ+シンプルなアルゴリズム=知能?というタイトルをつけさせていただいたのだが、巨大データを労働集約的に生成していくことで、人工知能周辺の分野にブレークスルーが生まれる可能性は高いと思う。

そして、そういう労働集約をネットを通して行なう方法論については、総務部系おばあちゃんの知恵的作業のググル化で紹介した、CastingWordsという実例もある。(参考: id:ktdiskさんによる分析使用レポート)

これは、id:ktdiskさんが次のように分析するAmazonの企業戦略の一つのポイントであるかもしれない。

Amazonが今やろうとしていることは、中小零細企業に自社の製品を消費者に届ける手段を、圧倒的な低価格、かつOnDemandに提供するということ。他者に提供できる製品があるのに、それを消費者に届けるIT及び、物理的なインフラ(倉庫など)を持たない人を強烈にエンパワーメントしようとしている。

CastingWordsの背後にあるAmazon Mechanical Turkは、価値を生み出す方法を持っている人をエンパワーメントする為に、彼らの足らないものをサポートするシステムを作るという戦略の一貫としてとらえるべきだと思う。

すなわち、労働集約型の人工知能(的なもの)に労働力を投入する為のインフラが整いつつあるのだ。

機械翻訳も、機械のみの翻訳は品質向上が著しいとも言えるが、逆に適用可能な範囲の限界もハッキリ見えてきたように思える。UIやコミュニケーションの回路までをからめた革新によって、労働力とソフトウエア(アルゴリズム)の相互作用で進化するようなシステムが可能になれば、チャットやネットゲームのような断片的かつ口語的なコミュニケーションにおいても、これまでと違うレベルで違う言葉を話す人との意思疎通が可能になるかもしれない。

それで、久しぶりの造語癖がうずいてしまったのだが、このような労働集約型人工知能を表す言葉として「半労半算」っていうのはどうでしょう?