「戦略技術」無き時代の「戦略技術」を見い出しつつあるグーグル
404 Blog Not Found:「戦略技術」なるものはありうるか?は、ネットビジネスにおける最大のジレンマをうまく表現していると思う。つまり、技術は重要なファクターであるのにもかかわらず、それを戦略の核とすることが難しいということだ。
その理由とは、技術、特にソフトウエアに関する技術が本質的に持つ「可搬性」と「属人性」である。技術はコピーするのが容易で、人に属していて組織に属さない。人を囲いこむことが難しいので、他社に無い技術を長期的に保持することが難しい。そして、ネット、ソフトウエアの世界においてそれはより顕著である。
しかし、そのネットビジネスにおける最大のジレンマに対する回答を、グーグルは見出しつつあると私は思う。その鍵は、サーバファームとドクターファームだ。
ひとつ具体的な問題を設定して、これについて説明してみたい。
WEBページには、リンクがつきものだが、ひとつのページからリンクしているページの数はさまざまだ。そして、そのリンクの数はページのサイズに単純に比例しているかと言うとそうではないと思う。
リンク集やマニュアルのインデックスのページでは、ドキュメントがほとんどリンクで構成されている。だから、ページのサイズに比例してリンクの数が増える。ブログ等のCMSで作られたページでは、アーカイブ等の関連ページへのリンクが定型で入っている。だから、本文のサイズに関わらず、かなり多量のリンクがある。マニュアルの本文やテキストサイト等、文章主体のサイトでは、長いテキストがあっても、リンクは少ない。
リンクの数のページデータサイズの関係は、そのページの特性によってさまざまだ。
仮に、1kバイトあたりリンクがいくつ存在するか、つまり(リンク数/ページデータサイズ)を「リンク密度」と呼ぶとして、以下の問題について考えてみたい。
- 世界のWEBページ全体の平均リンク密度はどれくらいか?
- 一定以上のページランクのトップページを持つドメインの中で、ドメイン内の平均リンク密度が高いのはどこか?
- あるページがリンクしているページのリンク密度の平均(仮に「言及先リンク密度」と呼ぶ)とページランクの相関関係はあるか?
おそらく、これらの問題にグーグル社員の何人かは数時間で(ひょっとしたら数分で)答えることができる。そして、グーグル社員以外の人間にとっては、途方もない労力を要する仕事になる。
「平均リンク密度」や「言及先リンク密度」に関するこういう数字に意味があるかないかはわからない。おそらく意味が無いと思うが、こういう数字をいろいろ調べて何かと組合せれば、何か面白い結果につながるかもしれない。
たとえば、「ドメイン内の平均リンク密度」は、いい意味でも悪い意味でも「Web2.0度」みたいな数字になるような気がする。そういうトレンドに乗る会社ほど、CMSの採用率が高くて、リンク数(リンク密度)が高くなるのではないだろうか。「言及元のリンク密度」を加味してページランクを算出したら、やはり「Web2.0度」の高いページがより上位になるかもしれない。
もし有意な相関があれば、それは「Web2.0」が嫌いな人にとっても有用な情報になる。つまり、その計算を逆にやって、「Web2.0」な(=軽薄な)企業やサイトをフィルタリングして、そうでない、そういうトレンドに軽々しく乗らないページを優先して見る為の基準になるかもしれない。
グーグルにいれば、こういう実験、調査を好きなだけ(とは言えないかもしれないが、他より確実に容易に)できるのだ。こういうことをたくさんの研究者が毎日考えて、すぐその場で検証していれば、その中からは有用なアルゴリズムが出て来ない方が不思議である。
そして、この基盤となる分散処理の技術は、扱うデータの複雑性が大きいという点で、非常にユニークなものだ。科学技術計算のスーパーコンピュータや、金融機関の大規模トランザクション処理も、CPUパワーとしてはグーグルに匹敵するかもしれないが、それらは、大量のCPUで処理される大量のデータの粒がそろっている。だから、たくさんのCPUがあるとしても皆ほぼ同じようなことをしている。
それと比較して、WEBページはいろいろな観点からバラツキがある。リンクだらけのページもあれば、リンクが無いテキストだけのページもある。世界中からリンクされるページもあれば、ひとつしかリンクされてないページもある。その中間も多種多様なパターンがある。
これを処理する為の分散処理は、それぞれのノードがかなり違う特性のデータを扱った上で、全体をまとめて結果を出さなくてはいけない。
だから、基礎技術としても応用技術としても、非常に可能性のある分野だと思う。
こういうジャンルについて研究しようと思ったら、グーグル以外に選択肢はない。もちろん、純粋に理論的な研究は可能だが、それを検証しようとしたら、それだけの複雑性を持った超巨大データとそれを処理できるだけの計算資源は、他にはない。
小飼さんのおっしゃるように、技術者、研究者を囲いこむのは難しい。しかし、それは逆に言えば、最高の環境を用意したら、そこに集まるのをひきとめるのが難しいということだ。複雑性を持つ超巨大データの研究については、基礎技術も応用技術も最高の研究者が集まっているのだから、グーグルは唯一であると同時に最高の環境である。
だから、グーグルは確かに「戦略技術」を確保したと私は考える。
「基盤技術」と「マーケッティング」では、グーグルも普通の優良企業であり、失敗もする。特に最近は、失敗も増えているし迷走している部分もあると思う。そこでは、グーグルだけが有利な点はないし、グーグルだけが不利で他社が優位な点もない。もしあったとしても、その技術は盗まれ得るもので、すぐにキャッチアップできる。
ネットは、「基盤技術」と「マーケッティング」の分野では、(一定レベル以上)のあらゆる会社を同等にして、独走を許さない。グーグルもマネしてマネされて、たまに成功してたまにはドジを踏むごく一般的なプレーヤーだ。その部分と「戦略技術」をつなげるルートは、まだしっかり確立されてないので、これからもしばらくは試行錯誤が続くだろう。
しかし、プレーヤー間の差がつきにくいということは、わずかな違いが圧倒的な差につながる可能性もあるということで、そういう環境で「複雑な超巨大データの分散処理」という「戦略技術」を持つことの意味は大きいと私は思う。