情報・資料館

データ分析のはじめの一歩②【まずはここまでやってみよう】

2020-06-21

前回、手元のデータをどう分析しようかと考えたとき、まずは代表値を求めましょうということをお伝えしました。

3つの代表値とともに、これからご紹介する数値も同時に出しておくことが多いです。

以下の数値も併せて見ることで、よりデータの特徴を把握することができます。

 

データ分析のはじめの一歩①【エクセルで代表値を求めよう】

  データがいろいろあるんだけど、分析するにはまずどうしたら良いのかな? こんな疑問を解決したいと思います。   少しずつ統計学についてお伝えしています。 ですが私は統計初学者であ ...

続きを見る

 

代表値とともに求めておくべき数値

最大値

最小値

標準偏差

 

最大値・最小値:MAX関数・MIN関数

集めたデータのうち、一番大きな数値と一番小さな数値をそれぞれ最大値・最小値と言います。

これを知ることで、明らかにありえない数値、誤入力した数値など、いわゆる「外れ値」を見つけ出すことができます。

この外れ値は、最大値・最小値といった中央値から一番外れたところにある数値です。

外れ値があることによって、中央値には影響を及ぼしませんが、平均値へは大きな影響を及ぼします。

そのため、外れ値を見つけることはとても重要です。

 

Excel の場合

最大値は「MAX」、最小値は「MIN」という関数で求めることができます。

=MAX(最初のセル:最後のセル) ←( )でセルの範囲を指定してくださいね

=MIN(最初のセル:最後のセル)  ←( )でセルの範囲を指定してくださいね

 

標準偏差:STDEV関数

統計学を学ぶ前、私はこの時点で苦手意識が強くなってしまいました。

平均値はおなじみでしたし、中央値、最頻値、最小値、最大値はその言葉通りの数値を意味しているのでわかりやすいのですが、標準偏差はイマイチよくわからなかったのです。

 

標準偏差とは、平均値と比べてどのくらいデータがばらついているのか、を表します。

 

例えば、以下のようなデータがあったとします。 

 
1 500 700 1,000
2 500 700 800
3 500 700 800
4 500 700 600
5 500 700 600
6 500 300 300
7 500 300 300
8 500 300 300
9 500 300 300
10 500 300 0
合計 5000 5000 5000
平均値 500 500 500
中央値 500 500 450
標準偏差 0 200 293.26

①②③、それぞれ10個ずつのデータがあります。

①②③において、平均値はどれも500ですが、標準偏差を見ると大きく異なっています。

平均値が同じでも、中のデータをみてみると数値が異なることがわかると思います。

標準偏差を調べることで、データの中身が割と揃っているのか、それともバラバラの数値になっているのかを知ることができます。

 

「偏差」とは、数値と平均値の差のことを言います。

標準偏差の計算方法ですが、以下のようになります。

標準偏差 = {(データの各数値の偏差の2乗を合計した値) ÷ データの個数  } の平方根

 

ちょっと複雑ですよね。

とりあえず「標準偏差」がデータのばらつき具合を表すということを押さえておいてくださいね。

 

Excel の場合

STDEVという関数で求めることができます。

数値が母集団全体の数値である場合、

=STDEV.P(最初のセル:最後のセル) 

数値が母集団から抽出した標本の数値である場合、

=STDEV(最初のセル:最後のセル) 

または

=STDEV.S(最初のセル:最後のセル) 

を用います。

 

まとめ

ここまで、データ分析を始める一番最初に出してみるべき代表値についてお伝えしました。

最小値

平均値

中央値

最大値

最頻値(不要な時もあります)

標準偏差

 

自分が調べてみたいデータについて、これらの数値を求めてみると、何か見えてくるかもしれません。

ご参考まで。

 

統計学に強くなりたい【産業保健師スキルアップ】

こんにちは。 今回は統計についてのお話です。 統計? 昔習ったけど、苦手だなぁ・・・ 会社にデータはたくさんあるけれど、使いこなせてない・・・ こんな風に思ったことはありませんか? 私は統計学に苦手意 ...

続きを見る