最近、長年に渡り慣行されていた大手企業の製品・製造に関するデータの改ざんやねつ造が事件として大きく取り上げられ、社会問題となっております。また、官公庁のさまざまな統計データについても、その集計方法の見直しやより実態を反映するように調査項目の改善・改良が図られております。こうした、長年、あまり問題とはならなかったデータに纏わる問題が取り上げられる背景には、AI・機会学習の普及から、データ駆動社会におけるデータ価値の認識が高まったとともに、AI-ビックデータのインフラを正しく機能させるうえで、データの公正性が社会的に重要視されてきていることがあるかと思います。
一方、”マーケットシェアランキング調査”の記事でも紹介いたしましたが、IT調査会社は市場推定値や予測値などの評価値を独自に生成し、時系列データとしてリリースしております。”独自の評価値”の中身はケースバイケースであると思いますが、多くは、アンケート調査などの独自調査から得られる結果及び財務情報等の公開情報に、業界関係者等からによる非公開情報と専門アナリストの判断を加味したものであると思います。こうした純粋な計測データでも、それを加工した2次データでもないデータベースの位置づけについては、今後のデータ駆動型社会では考慮が必要になるのではないでしょうか?
また、現状では、その推定方法においても、おおまかなプロセスを説明するのに留まり、一般には十分な開示は行っていないかと思います。私自身も長年にわたり調査データに携わる仕事をさせて頂いておりましたが、やはり、データ駆動社会におけるデータ管理の要請を踏まえると、IT調査会社がさまざまなサービスとして提供する独自の評価値や推定値においても、透明性を高めてゆく必要があると感じております。
もちろん、専門アナリストの主観を考慮した評価値のデータは、現状のビジネスにおいては一定の利用価値があると思いますが、中立を担保した信頼性の高いデータサービスとするには、データに対する公正性へに対する要請に対し、今後、何らかの対応が必要になってゆくのではないでしょうか?次回では、その具体的な方向性について、考えてみたいと思います。