5. ความน่าจะเป็นและสถิติขั้นสูง
5.2 การวิเคราะห์ข้อมูลและการคำนวณค่าความแปรปรวน
การวิเคราะห์ข้อมูลเป็นกระบวนการที่สำคัญในการทำความเข้าใจแนวโน้มและความแปรปรวนของข้อมูลที่เก็บมา การคำนวณค่าความแปรปรวน (Variance) เป็นหนึ่งในเครื่องมือที่ใช้บ่อยในการวิเคราะห์ข้อมูล โดยค่าความแปรปรวนช่วยให้เรารู้ว่าค่าของข้อมูลกระจายตัวห่างจากค่าเฉลี่ยมากน้อยเพียงใด
ค่าความแปรปรวน (Variance)
ค่าความแปรปรวนคำนวณได้จากการหาค่าความแตกต่างระหว่างข้อมูลแต่ละค่ากับค่าเฉลี่ยของข้อมูล (Mean) แล้วนำค่านี้มายกกำลังสอง จากนั้นจึงคำนวณค่าเฉลี่ยของค่ายกกำลังสองเหล่านี้ สมการในการคำนวณค่าความแปรปรวนสามารถเขียนได้ดังนี้:
\[ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \]
โดยที่:
- \( \sigma^2 \) คือค่าความแปรปรวน
- \( N \) คือจำนวนข้อมูลทั้งหมด
- \( x_i \) คือค่าของข้อมูลแต่ละตัว
- \( \mu \) คือค่าเฉลี่ยของข้อมูล
ตัวอย่างการคำนวณค่าความแปรปรวน
พิจารณาชุดข้อมูลต่อไปนี้: \( 2, 4, 6, 8, 10 \)
ขั้นตอนที่ 1: คำนวณค่าเฉลี่ยของข้อมูล
\[ \mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6 \]
ขั้นตอนที่ 2: คำนวณผลต่างระหว่างค่าของข้อมูลแต่ละตัวกับค่าเฉลี่ย จากนั้นนำมายกกำลังสอง
- \( (2 - 6)^2 = (-4)^2 = 16 \)
- \( (4 - 6)^2 = (-2)^2 = 4 \)
- \( (6 - 6)^2 = 0^2 = 0 \)
- \( (8 - 6)^2 = 2^2 = 4 \)
- \( (10 - 6)^2 = 4^2 = 16 \)
ขั้นตอนที่ 3: คำนวณค่าเฉลี่ยของผลต่างยกกำลังสอง
\[ \sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8 \]
ดังนั้น ค่าความแปรปรวนของชุดข้อมูลนี้คือ \( 8 \)
ค่าความแปรปรวนที่สูงบ่งบอกถึงการกระจายตัวของข้อมูลที่ห่างจากค่าเฉลี่ยมาก ส่วนค่าความแปรปรวนที่ต่ำหมายถึงการกระจายตัวของข้อมูลที่อยู่ใกล้ค่าเฉลี่ย การวิเคราะห์ความแปรปรวนช่วยให้เราทำความเข้าใจข้อมูลได้อย่างลึกซึ้งมากขึ้นและสามารถนำไปใช้ในการตัดสินใจที่สำคัญได้