#243 データの収集方法（データサイエンティスト）

データサイエンティストの役割は

①何をやるか明確にする（仮説立て）

②どのようなデータを集めるかを考える

③必要な理論や要素技術を組み合わせ、プログラムを実装する

④フィードバックされた情報に基づき改善する

ことである。

このサイクルを回す際に重要なのは、自分がしていることが最終目的に合致しているか強く意識することである。

どれだけ統計モデルを作っても、その評価尺度が実態と噛み合わなければ努力も水の泡である。

人によってどの部分を重視するのかも異なってくる。

「統計技術は平均や分散だけで良い」「面白いデータを収集することが全てだ」というラディカルな発想をする人もいれば

異なるデータでも汎化性能を発揮する統計的アルゴリズムを追求するのが好きな人もいる。

〜データの取集方法〜

①オープンデータ

オープンデータとは、誰かしら広く活用してもらおうとデータを成形し、公開したものである。

各国政府が提供する広く社会に関する統計データ、研究者が機械学習のアルゴリズム（問題を解くための手順のこと）のベンチマーク用に公開するデータ、Wikipediaなど共同努力によって集まった情報をデータベース化したもの、パナマ文書など特定団体が公開したデータ、データサイエンスブログが公開したデータ、映画、データベースなどがある。

②WebAPI

APIとは、「アプリケーションプログラミングインターフェース」の略称で、サービス提供者がソフトウェアの一部や保有するデータを他のユーザーにも有効活用してもらおうと公開するサービスのことである。

〜APIの公開例〜

2.楽天

5.Google

7.New York Times AP

8.Associated Press

9.Foursquare