データサイエンス全般

データサイエンティスト

データサイエンティストとは

ハーバード・ビジネス・レビューの2012年10月号において、「データサイエンティスト:21世紀でもっとも魅力的な職業(Data Scientist: The Sexiest Job of the 21st Century)」という特集が組まれます。それが「データサイエンティスト」という言葉を、広く世に知らせるきっかけになったといわれています。

データサイエンティスト(Data Scientist)とは何でしょうか?

データサイエンスとは何かということについて、前回の記事でご説明しました。データサイエンティストについてのもっとも簡単な説明は、「データサイエンスをする人」です。そういいきってしまえれば話は簡単ですが、「データサイエンティスト」と「データサイエンスをする人」では、すこしニュアンスの違いが発生します。

『デジタル大辞泉』(小学館)では、「データサイエンス」について次のように説明されています。

データの分析についての学問分野。統計学、数学、計算機科学などと関連し、主に大量のデータから、何らかの意味のある情報、法則、関連性などを導き出すこと、またはその処理の手法に関する研究を行う。これらの研究者および技術者はデータサイエンティストとよばれる。

「データサイエンス」は「学問分野」であるとしつつ、「データサイエンティスト」はその「研究者および技術者」であるといっています。この「技術者」という言葉をどう解釈するかということになりますが、管理人は「ビジネス現場におけるデータサイエンスの実践者」と捉えています。

データサイエンティストに求められるスキルセット

前回の記事で、ドリュー・コンウェイによるデータサイエンスのベン図をご紹介しました。おそらくこれにインスピレーションを得たものとして、「データサイエンティスト協会がデータサイエンティストに求められるスキルセットを公開しています。


出展:データサイエンティストのためのスキルチェックリスト/タスクリスト概説

データサイエンティストには、データサイエンス力、データエンジニアリング力、ビジネス力という3つのスキルが必要です。

ここであることに気づきます。データサイエンス力を持った者=データサイエンティストではない、ということです。データサイエンス力は「情報処理・人口知能・統計学などの情報科学系の知恵を理解し使う力」と位置づけられています。

データサイエンティストにはそれに加えて、データエンジニアリング力(データサイエンスを意味のある形として扱えるようにして、実装・運用する力)、およびビジネス力(課題背景を理解し、ビジネス課題を整理・解決に導く力)が必要です。

「データサイエンス」といったときには「(情報科学を中心とした)学問分野としてのデータサイエンス」という意味が、「データサイエンティスト」といったときには「ビジネスパーソンとしてのデータサイエンティスト」という意味が、強調されているように感じます。

したがって「データサイエンス力」という言葉には、すこしばかり注意が必要です。滋賀大学データサイエンス学部のカリキュラムではおそらく誤解を避けるために、「データサイエンス系科目」としたいところを、あえて「データアナリシス系・データ解析系科目」と呼び変えているのではないでしょうか。

データサイエンティストのためのスキルチェックリスト

「アクチュアリー」という専門的な職業がありますが、そう名乗るには日本アクチュアリー会の資格試験に合格し、かつ所属している必要があります。

いっぽう「データサイエンティスト」にはそのような資格試験は存在せず、データサイエンティスト協会など特定の協会への所属も必須ではありません。

したがって「自分はデータサイエンティストだ」と宣言さえすれば、その瞬間から誰でもデータサイエンティストを名乗ることが可能です。

しかしデータサイエンティストの能力を評価するものがまったくないかというとそういうわけではなく、ひとつとしてデータサイエンティスト協会によるデータサイエンティストのためのスキルチェックリストがあります。

データサイエンス力、データエンジニアリング力、ビジネス力それぞれで、次のようなスキルカテゴリが存在します[1]スキルチェックリストの最新版は、データサイエンティスト協会のホームページよりご確認ください。


出展:データサイエンティストのためのスキルチェックリスト/タスクリスト概説

但しスキルチェックは自己評価であるため、認知バイアスの影響を受けやすい点には注意が必要です。「ダニング=クルーガー効果」という言葉をご存じでしょうか? 能力の高い人ほど自己を過小評価し、逆に能力の低い人ほど自己を過大評価する傾向のことをいいます。

したがって客観的な評価指標として、スキルチェックの結果を使用することはできません。自己研鑽のために、自分自身の過去と比較するような形で、定期的に成長を確認するような使い方をするとよいのではないでしょうか。

データサイエンティスト検定

資格試験ではありませんが、データサイエンティストのスキルを客観的に測定するもののひとつとして、データサイエンティスト検定があります。[2]ほかに「データサイエンス力」を評価するものとして、日本統計学会による「統計検定 データサイエンス基礎」および「統計検定 … Continue reading

データサイエンティスト検定ついて詳しくは、下の記事をご参照ください。

データサイエンティスト検定
データサイエンティスト検定とは「データサイエンティスト検定 リテラシーレベル」は、一般社団法人データサイエンティスト協会が主催している検定です。2021年9月に、第1回試験が開催されました。データサイエンティスト協会では、データサイエ...

データサイエンティストの種類

「データサイエンティスト」という言葉には、「データサイエンスの研究者」という意味と、「データサイエンスの技術者」という意味の両方が存在します。

現実的には、後者の意味で用いられることが多いのではないでしょうか。ここでは「データサイエンスの技術者」という意味に限定して、さらにどのような形態の違いがあるのかということについて見ていきます。

ところで言葉本来の意味からすると、「データサイエンスの研究者」だけを「データサイエンティスト」と呼び、「データサイエンスの技術者」は「データエンジニア」と呼んでもよさそうなものです。しかし残念ながら(?)「データエンジニア」という言葉はすでに、べつの意味として認知されています。つまりデータサイエンティストに求められるスキルセットのうち、「データエンジニアリング力を活用した職業」です。具体的な業務としては、データ分析にかかわるITインフラやデータベースの構築、運用、またデータの整形といったものがあげられます。

データサイエンティストには、データエンジニアリング力に加えて、データサイエンス力およびビジネス力が必要です。しかしここで注意しなければならないのは、組織の一員として働く限り、ひとりですべてを完璧にこなす必要はないということです。たとえばデータエンジニアリング力にかかわる業務の大半はデータエンジニアが行い、データサイエンス力、ビジネス力およびそれらとの連携が必要なデータエンジニアリング力の部分を、データサイエンティストが行うといった業務分担も考えられます。

つまりデータサイエンティストとして、データサイエンス力、データエンジニアリング力、ビジネス力のうち、どこにどれだけウェイトを置くかは、所属する企業やチームの考え方によって変わってきます。一般に、チームが取り扱うプロジェクトの数や規模が大きくなればなるほど、業務分担は細分化される傾向にあります[3]アプリケーション開発については「アプリケーションエンジニア」が担当するというのも、よく見られる分業の形です。

またデータサイエンス力の中でも、必要となる専門性は変わってきます。「データサイエンティストのためのスキルチェックリスト」にすべてマルがつくような、完全無欠のデータサイエンティストは存在しないということです。

アウトソース型とインハウス型

所属する企業の業態によって、データサイエンティストを区別するという考え方もあります。

クライアントとなる企業や団体へ、分析ツールやサービスを提供することを目的として活動しているデータサイエンティストを、アウトソース型のデータサイエンティストと呼びます。対して、所属する企業自身の課題解決や意思決定に貢献することを目的として活動しているデータサイエンティストを、インハウス型のデータサイエンティストと呼びます。

アウトソース型のデータサイエンティストはプロジェクトごとに、それに対応したドメイン知識を獲得する必要があります。背景知識を書籍等から得た上で、課題に固有の知識をクライアントとのミーティング等を通して得ます。サービス業、製造業などクライアントの業種によって、ある程度チームが分かれていることも多いかと思います。

インハウス型のデータサイエンティストは、ドメイン知識の獲得が比較的容易で、かつ社外秘の情報を含めた深いドメイン知識を利用することができるという特徴があります。アウトソース型のデータサイエンティストであっても、秘密保持契約(NDA)を結ぶことによって、ある程度内部情報に接することは可能です。しかしどうしても外に出せない情報や、出せたとしても専門性が高すぎるためにアウトソース型のデータサイエンティストには理解が及ばない、つまり知識として利用できない情報といったものが存在します。

一般に「データサイエンティスト」といってイメージされるのは、アウトソース型のデータサイエンティストかもしれません。またインハウス型のデータサイエンティストの場合、実態は立派に「データサイエンティスト」をしていたとしても、あえてそうした肩書きを用意していない場合も多いかもしれません。

データアナリストおよび機械学習エンジニアとの違い

データサイエンティストとよく似た職業として、データアナリスト機械学習エンジニアがあります[4] … Continue reading

データサイエンティストに求められるスキルセットのうち、データサイエンス力に特化した職業を、データアナリストや機械学習エンジニアと呼ぶことが多いように思います。その中で、統計解析によるアプローチを主体とするのがデータアナリストであり、機械学習によるアプローチを主体とするのが機械学習エンジニアという違いがあるのではないでしょうか。統計解析と機械学習の違いについては、別の記事(準備中)で改めてご説明します。

これもやはり、組織によっても呼び方はさまざまです。本サイトでいうところの「データサイエンティスト」は、ある組織では「データアナリスト」あるいは「機械学習エンジニア」と呼ばれていたり、その逆ということもあり得ます。

脚注

脚注
1 スキルチェックリストの最新版は、データサイエンティスト協会のホームページよりご確認ください。
2 ほかに「データサイエンス力」を評価するものとして、日本統計学会による「統計検定 データサイエンス基礎」および「統計検定 データサイエンス発展及びエキスパート」があります。
3 アプリケーション開発については「アプリケーションエンジニア」が担当するというのも、よく見られる分業の形です。
4 「AIエンジニア」という言葉も、「機械学習エンジニア」とほぼ同じ意味で用いられています。ただし「AIエンジニア」といった場合は、深層学習(ディープラーニング)により専門性の軸足を置いているようなニュアンスもあるかもしれません。
タイトルとURLをコピーしました