【データ分析】分析の難易度とアレの関係
Excelで扱えるレコード数(行数)は、1,048,576もあります。104万行も!
仕事でデータを扱っている人の多くは、Excelをメインで使っていると思いますし、Excelしか使っていない人がかなりの割合を占めているのではないかと思います。しかし、100万行のデータを扱う人は、全Excelユーザーの1%いるかいないかでしょう。
もちろん、業務で、SPSS、SAS、Rなどを使ったり、SQLを使ってデータの加工や集計、分析を行っている人もいますし、AIの開発にPythonを用いている人は増えるかもしれません。
目次
「分析の難易度」と「レア度」の関係
今挙げた、Excel以外のこれらのツールやプログラム言語を用いて、難易度の高い、高度な分析を行える人は多くないため、企業の中で重宝されますし、転職市場でのレア度も高いですね。
「分析の難易度」と「研究分野での評価」の関係
学会など、研究の世界では、高度な分析を行うこと、それ自体が評価されることがあるかもしれません(いや、手法にも注目はするよ、でも、それはあくまでも手段であり、目的にあったアウトプットを出しているか、新たな発見があったかを評価するんだよ、という意見の方が主流かもしれませんが)。
「分析の難易度」と「理解できる人数」の関係
一方で、難しい分析、高度な分析をして、画期的なアウトプットが得られたとしても、その分析手法が多くの人には馴染みのないものである場合、(アウトプットの価値を認めたとしても)分析自体を理解できる人は少数かもしれません。下図では、横軸に「分析の難易度」と書きましたが、「分析結果の表現方法の珍しさ」としても良いかもしれませんね。
「分析の難易度」と「仕事での使用場面」
また、高度な、あるいは、難解な分析手法は、多くの仕事の場面では使われることが少ないです。それはそうでしょう、そもそもその手法を使える人、あるいは、知っている人自体が少ないわけですからね。また、その手法の使い手が、仕事において、この分析をしてみたいと思ったとしても、どんな分析をしたのかを皆に理解してもらうことが難しいと考え、難しいその分析を実行することをあきらめてしまう、ということもありえそうです。
以上、かなり大雑把に、「分析の難易度」と「アレ」の関係を、細部には目をつぶって大胆に表してみました。突っ込みどころは多いと思います。
いつもの分析が大きな力を持つ(しかし注意は必要)
とはいえ、多くの人が日々の仕事で、ExcelやGoogle Spread Sheet でデータを扱っており、難しくはないものの、ちょっとした分析を行う機会は、かなり多いのではないかと思うのです。
本稿では扱いきれないので、触れるだけにしますが、「vlookup関数」というExcelの便利な関数を使って、複数の個となる表(テーブル)のデータを紐づける、といった作業を「おこなえる」という人は多いことでしょう。私もよく使う関数で、大変便利ですよね。でも、使用時には注意しなくてはならないことがあります。
これは一例ですが、「ピボットテーブル」や「フィルタ機能」など、Excelの便利な機能には、いずれも、注意を払わねばならないことがあります。
多くの人が使うツール(Excelなど)、多くの使う分析手法(平均値などの記述統計の算出、単純集計、クロス集計など)は、適切な使い方をすれば、業務の効率化を図ることにも、業務の成果を高めることにも、間違いなくプラスに働きます。
書籍でも、オンラインの講座でも、この種のスキルを修得することを目的とした学びの機会はたくさんあります。それほど、スキルを持ちたいというニーズは大きいのだと思います。私も、Excelの基本的な使い方、便利な使い方を身につけるための講座を作ろうと思ったことはあります。
しかし、今のところ、敢えてその種の学びの場を設ける予定はありません。その代わり、こんなものをつくろうと構想中です。
★講座準備中――データ分析が苦手な人、挫折した人、入門できなかった人のために
現在、この↑ようなオンライン講座(レクチャー)を準備中です。もちろん、真面目な内容ではあるのですが、この講座を通じて、データって(難しいところもありますが)とても興味深いもので、物事を色々な角度から見ることができますし、データともっと戯れて、怖がらないで、仲良くなって、楽しんでみましょう!ということを伝えたいと考えています。
教科書で学んだ(難しいしつまらなくて挫折した人も多いはずの)確率・統計の内容は重要です。が、私がつくっている講座では、(袋に入れた赤い玉と青い玉の話ではなく)身近なデータを題材に、楽しく、面白く、データに親しんでいただきながら、苦手意識を少しでも払拭してもらいたいと思っています。
もう少しで開講しますので、お楽しみにしていてください。