5. ความน่าจะเป็นและสถิติขั้นสูง

5.2 การวิเคราะห์ข้อมูลและการคำนวณค่าความแปรปรวน

การวิเคราะห์ข้อมูลเป็นกระบวนการที่สำคัญในการทำความเข้าใจแนวโน้มและความแปรปรวนของข้อมูลที่เก็บมา การคำนวณค่าความแปรปรวน (Variance) เป็นหนึ่งในเครื่องมือที่ใช้บ่อยในการวิเคราะห์ข้อมูล โดยค่าความแปรปรวนช่วยให้เรารู้ว่าค่าของข้อมูลกระจายตัวห่างจากค่าเฉลี่ยมากน้อยเพียงใด

ค่าความแปรปรวน (Variance)

ค่าความแปรปรวนคำนวณได้จากการหาค่าความแตกต่างระหว่างข้อมูลแต่ละค่ากับค่าเฉลี่ยของข้อมูล (Mean) แล้วนำค่านี้มายกกำลังสอง จากนั้นจึงคำนวณค่าเฉลี่ยของค่ายกกำลังสองเหล่านี้ สมการในการคำนวณค่าความแปรปรวนสามารถเขียนได้ดังนี้:

\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \]

โดยที่:

  • \( \sigma^2 \) คือค่าความแปรปรวน
  • \( N \) คือจำนวนข้อมูลทั้งหมด
  • \( x_i \) คือค่าของข้อมูลแต่ละตัว
  • \( \mu \) คือค่าเฉลี่ยของข้อมูล

ตัวอย่างการคำนวณค่าความแปรปรวน

พิจารณาชุดข้อมูลต่อไปนี้: \( 2, 4, 6, 8, 10 \)

ขั้นตอนที่ 1: คำนวณค่าเฉลี่ยของข้อมูล

\[ \mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6 \]

ขั้นตอนที่ 2: คำนวณผลต่างระหว่างค่าของข้อมูลแต่ละตัวกับค่าเฉลี่ย จากนั้นนำมายกกำลังสอง

  • \( (2 - 6)^2 = (-4)^2 = 16 \)
  • \( (4 - 6)^2 = (-2)^2 = 4 \)
  • \( (6 - 6)^2 = 0^2 = 0 \)
  • \( (8 - 6)^2 = 2^2 = 4 \)
  • \( (10 - 6)^2 = 4^2 = 16 \)

ขั้นตอนที่ 3: คำนวณค่าเฉลี่ยของผลต่างยกกำลังสอง

\[ \sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8 \]

ดังนั้น ค่าความแปรปรวนของชุดข้อมูลนี้คือ \( 8 \)

ค่าความแปรปรวนที่สูงบ่งบอกถึงการกระจายตัวของข้อมูลที่ห่างจากค่าเฉลี่ยมาก ส่วนค่าความแปรปรวนที่ต่ำหมายถึงการกระจายตัวของข้อมูลที่อยู่ใกล้ค่าเฉลี่ย การวิเคราะห์ความแปรปรวนช่วยให้เราทำความเข้าใจข้อมูลได้อย่างลึกซึ้งมากขึ้นและสามารถนำไปใช้ในการตัดสินใจที่สำคัญได้