【連載】Googleフォームの罠 ② 立ちはだかる「データクレンジング」の壁

※本稿は連載記事3本中の2本目です。
[第1回:「誰でも作れるGoogleフォーム」の落とし穴 は こちら]
[第3回:本当に活かすための「逆算の調査設計」 は こちら]

前回は、Googleフォームの手軽さの裏で、いざ実務的な「クロス集計」をしようとすると、データ構造の壁にぶつかるというところまでお話しました。

アンケートの受付を締め切り、満を持してダウンロードしたCSV(ローデータ)。
これをExcelのピボットテーブルにかけたり、Pythonなどのプログラムを使って分析したりするには、その前の工程を確実にクリアしなくてはなりません。

クロス集計の前工程として重要なのが、地味でタフな「データクレンジング(下処理)」という作業です。

Googleフォームのデータには、本来が「テキスト入力画面」であるがゆえのクセがあります。クロス集計のスタートラインに立つために、具体的にどのような作業が発生するのか、細かく分解して見ていきましょう。

データクレンジングで発生する、主な5つの実務作業

1. 複数選択(MA)の「ダミー変数化」

これが現場の担当者を最も苦しめる最大の壁です。Googleフォームで「当てはまるものをすべて選んでください(複数選択:MA)」という質問を作ると、出力されるCSVの1つのセルの中に、「SNS, 知人の紹介, 雑誌」とカンマ区切りで回答がすべて詰め込まれて出力されてしまいます。
このままではピボットテーブルで集計することができません。解決するためには、選択肢の数だけ新しく列を横に作成し、その選択肢を選んだ回答者には「1」、選んでいない人には「0」を1行ずつ入力していく「ダミー変数化」という高度なデータ解体・成形作業が必要になります。

2. 単一選択(SA)の「数値コード化」(プリコード変換)

Googleフォームは、選択肢の「文言(テキスト)」がそのままセルに書き込まれます(例:セルの中に『非常に満足』という文字が入る)。しかし、統計解析を行ったり、満足度の平均値を算出してグラフ化したりするためには、「非常に満足=5」「満足=4」といった数字(コード)に変換しなければなりません。VLOOKUP関数や置換機能を駆使して、すべての文字列を数字に置き換える作業が設問の数だけ発生します。

3. 無効回答の排除(データクリーニング)

分析結果を歪めてしまう「使えないデータ」を見つけ出し、データ全体から削除(行ごと削除)する作業も欠かせません。

  • 途中離脱: 必須項目以外がすべて空欄になっているような未完成の回答を削除する。
  • 不誠実回答: すべての設問に「1(全くそう思わない)」を一直線に回答しているような、明らかに読んでいないデータを検知して削除する。
  • 重複回答: 同じタイムスタンプや全く同じ回答パターンの行をチェックし、二重送信されたデータを削除する。

4. 論理矛盾の修正(データ補正)

Googleフォームは、前の質問の回答に応じて次の質問を変える「条件分岐(ロジック制御)」が、やや弱いため、回答矛盾が発生しがちです。
例えば、「Q1:お酒は一切飲まない」と答えた人が、「Q2:一番よく飲むお酒はビール」と答えているようなケースです。これらを放置するとデータの信頼性が失われるため、「Q1の回答を正として、Q2の回答を強制的に『非該当』に書き換える」といった、分析者が一定のルール(仕様)を決めてデータを整える「論理チェック・データ補正」を行います。

5. 「その他(自由記述)」のアフターコーディング(AC処理)

選択肢の最後に用意された「その他(具体的に:____)」に書き込まれた、バラバラのテキスト(FA:フリーアンサー)を読み解く作業です。似たような意見をグループ(カテゴリー)に分類し、新しく「6. 機能性を重視」といった選択肢(コード)を新設して、該当する回答者のセルを数字に置き換えていくという、非常に人の手と時間を要する処理です。

自動化されたこと、自動化されていないこと

このように、Googleフォームは単純集計のグラフは瞬時に見せてくれますが、実務の分析で必要となる、きれいなローデータを自動で作ってくれるわけではありません。私たちが普段目にする美しいクロス集計表の裏には、こうした職人技のようなデータクレンジングの工程が必ず存在しているのです。

しかし、実は多くの企業でこのデータクレンジングが「地獄のような作業」になってしまう最大の原因は、担当者のExcelスキルの問題でも、ツールの使い方の問題でもありません。さらに手前の、最も上流のステップに根本的な原因があるのです。

連載2回目の記事はここまでです。
最終回となる次回は、リサーチの成否を決定づける(決定的に重要な)「調査設計」についてお話しします。


※本稿は連載記事3本中の2本目です。
[第1回:「誰でも作れるGoogleフォーム」の落とし穴 は こちら]
[第3回:本当に活かすための「逆算の調査設計」 は こちら]


お問い合わせやご相談は、こちらからお願いいたします。