#243 データの収集方法(データサイエンティスト)
データサイエンティストの役割は
①何をやるか明確にする(仮説立て)
②どのようなデータを集めるかを考える
③必要な理論や要素技術を組み合わせ、プログラムを実装する
④フィードバックされた情報に基づき改善する
ことである。
このサイクルを回す際に重要なのは、自分がしていることが最終目的に合致しているか強く意識することである。
どれだけ統計モデルを作っても、その評価尺度が実態と噛み合わなければ努力も水の泡である。
人によってどの部分を重視するのかも異なってくる。
「統計技術は平均や分散だけで良い」「面白いデータを収集することが全てだ」というラディカルな発想をする人もいれば
異なるデータでも汎化性能を発揮する統計的アルゴリズムを追求するのが好きな人もいる。
〜データの取集方法〜
①オープンデータ
オープンデータとは、誰かしら広く活用してもらおうとデータを成形し、公開したものである。
各国政府が提供する広く社会に関する統計データ、研究者が機械学習のアルゴリズム(問題を解くための手順のこと)のベンチマーク用に公開するデータ、Wikipediaなど共同努力によって集まった情報をデータベース化したもの、パナマ文書など特定団体が公開したデータ、データサイエンスブログが公開したデータ、映画、データベースなどがある。
②WebAPI
APIとは、「アプリケーションプログラミングインターフェース」の略称で、サービス提供者がソフトウェアの一部や保有するデータを他のユーザーにも有効活用してもらおうと公開するサービスのことである。
〜APIの公開例〜
1.国立国会図書館
2.楽天
3.ぐるなび
4.リクルート
5.Google
6.Facebook
7.New York Times AP
8.Associated Press
10.Yelp
仮にデータそのものがウェブコンテンツとして閲覧可能で、ウェブスクレイピングが取得可能であったとしても、APIが提供されている場合はAPIを用いてデータを取得するのが基本である。
なぜなら、
APIであればリクエスト数を制限するなど、サーバーにかかる負担を管理者がコントロールできるから。
APIの利用にはプログラミングを用いる。
プログラミングを通してコンピュータからリクエストを相手側に送り、そのレスポンスを受け取ることでデータを取得する。
レスポンスとして返ってくるデータの形式はサービスにより違う。RSS、XML、JSONなどと呼ばれる特殊な形式が多い。
③ウェブスクレイピング
ウェブサイトから情報を取集する行為のことをウェブスクレイピングという。
一般的にはプログラミングで自動的に収集することである。
htmに置いて情報はパターン化されて記録されているため、比較的簡単なテキストマッチングで情報を抽出することが可能。