エクセルで最重要の“データ前処理”を徹底解説|初心者でもできるクリーニング手順(完全ガイド)

Level4 データ分析

データ分析の成功は、関数やグラフのスキルではなく 「前処理(データクリーニング)」 の質で決まります。
入力ミスや表記ゆれが放置されたまま分析を行うと、数値が狂い、誤った判断につながるためです。

この記事では、エクセル初心者でも実務レベルで使える 前処理の完全手順 をわかりやすくまとめました。
とくに今回のテーマは、分析前に絶対に行うべき「オートフィルター」「並べ替え」「表記ゆれの修正」など、根幹となるクリーニング作業です。

今回のクエストはこちら


なぜデータ前処理が重要なのか?

実務では「データは綺麗で当たり前」ではありません。むしろ不完全な状態で渡されることがほとんどです。

よくある問題は次の通りです:

  • 空白セルが多い
  • 誤入力(例:1000と10000の打ち間違い)
  • 全角・半角の混在
  • 東京/東京都のような表記ゆれ
  • 未来日付、マイナス値などの異常値
  • 目的と無関係な列が多数含まれている

こうしたデータをそのまま分析すると、
「件数が合わない」「グラフが崩れる」「誤った傾向になる」
というトラブルになります。

分析の正確さを守るため、前処理は不可欠です。


前処理の基本フロー(初心者向け5ステップ)

今回の内容は、次の流れで整理すると非常に進めやすくなります。

  1. オートフィルターでデータの状態を確認
  2. 並べ替えで異常値や入力ミスを洗い出す
  3. 空白・誤入力の修正
  4. 重複データの削除
  5. 表記ゆれの統一(置換・書式修正)

どれもエクセルの標準機能だけで完結するため、初心者こそ知っておくべき基本操作です。


STEP1:オートフィルターでデータを“見える化”する

前処理の最初のステップは 「オートフィルターの設定」 です。

● 方法

  1. 見出し行を選択
  2. データ → フィルター

オートフィルタの詳細はこちらの記事をご覧ください。

● フィルターでできること

  • 空白セルの確認
  • 特定の値だけ絞り込み
  • 入力間違いの一覧確認
  • 重複・異常値の候補を抽出

前処理の大半は「フィルターで気になる部分を見つける作業」です。


STEP2:並べ替えで異常値を一発で見つける

フィルターとセットで使うべきものが 並べ替え です。

並べ替えの詳細はこちらの記事をご覧ください。

● 並べ替えのメリット

  • 最小値・最大値が一瞬でわかる
  • 異常値を自然に発見できる
  • 入力ミスにすぐ気づく
  • 日付の前後関係が見える

● よく見つかる“異常値”の例

  • 売上金額が 0 や極端に大きい
  • 日付が未来(2050年など)
  • 年齢列に 200 などあり得ない数値
  • 注文数がマイナス

上から下にスクロールするだけで、修正すべき箇所が一目でわかります。


STEP3:空白セル・誤入力の修正

データに空白が多いと、集計時に

  • 件数が合わない
  • 平均値が狂う
  • グラフが不自然になる

などのミスが発生します。

● 空白の対応例

Endキーと矢印キーを利用すれば、列や行の中から空白を発見できます。

空白を発見した際には、以下のように対応しましょう。

  • 空白は「0」か「不明」などに統一
  • 数字列なのに文字列扱いになっているセルを変換
  • 必須項目を空白のままにしない

● 誤入力への対応

フィルターや並べ替えで見つかった誤りは、

  • 正しい数値への修正
  • 必要に応じて削除
    などを行います。

誤入力の防止策として入力規則や関数を利用しましょう。入力規則はこちらの記事をご覧ください。


STEP4:重複データの削除|二重カウントを防ぐ最重要作業

重複は集計結果を歪める最大の原因です。

● 削除手順

タブ「データ」 → 重複の削除

基準となる列(例:注文番号、顧客ID)を選択

これだけで、二重に登録された行をまとめて除去できます。

また、ユニークなデータで重複を確認する場合であれば、ピボットテーブルでカウントすると良いでしょう。複数あるものが重複データとなります。


STEP5:表記ゆれの統一|カテゴリの集計漏れを防ぐ

もっとも多いトラブルが「表記が統一されていないこと」です。

● よくあるゆれ

  • 東京/東京都
  • 男/男性
  • カタカナの全角/半角
  • 日付のyyyy/mm/dd と yy/mm/dd

● 対策

  • 書式設定で日付を統一
  • フィルターで全ての表記を確認して揃える

ピボットテーブルで一度集計すれば、ゆれのあるデータを発見できます。

書式設定の扱い方はこちらをご覧ください。


初心者が失敗しがちなポイントと解決策

● ① いきなり分析を始めてしまう

➡ 必ず前処理から着手する習慣をつくる

● ② メイン列だけ確認して横列は放置

➡ 全ての列にフィルターをかけてチェック

● ③ 表記ゆれを見落とす

➡ 「フィルター→並べ替え」の組み合わせで発見精度UP

● ④ 元データを編集してしまう

➡ 作業前に複製シートを作成


前処理が完了すれば、分析は驚くほどスムーズになる

前処理が正しくできていると、

  • 関数のエラーが減る
  • ピボットが綺麗にまとまる
  • グラフが見やすくなる
  • 分析の再現性が高まる

といったメリットが生まれます。

今回のクエストを終えて

前処理を習得!

データ分析をするための前処理をできるようになれば、余計なミスをすることなく集計ができます。

コメント

タイトルとURLをコピーしました