"Trí tuệ giàu lên nhờ cái nó nhận được,con tim giàu lên nhờ cái nó cho đi" - Victor Hugo.You can make a living by what you get, but you can make a life by what you give- Winston Churchill

Wednesday, January 11, 2012

Introduction to Statistics

DDM: Một vài điểm cần nhớ về lý thuyết xác suất thống kê.

P value
"Giá trị p là khả năng mà, khi cho rằng không có sự khác nhau giữa điểm trung bình môn toán ở nam và nữ của tổng thể, nhà nghiên cứu sẽ tìm thấy độ khác biệt ở trong một mẫu nghiên cứu khác bất kì và sự khác biệt đó bằng hoặc lớn hơn độ khác biệt mà nhà nghiên cứu tìm thấy trong mẫu nghiên cứu của họ. Như vậy, nếu giá trị p càng nhỏ thì nhà nghiên cứu càng có thể tự tin rằng kết quả nghiên cứu của mình là đúng. Các nhà khoa học trong lĩnh vực giáo dục học và các khoa học xã hội khác (tâm lý học, xã hội học,…) thống nhất rằng khi giá trị nhỏ hơn hoặc bằng 0.05, hay 5% thì chúng ta có đủ tự tin để nói rằng có sự khác nhau trong tổng thể nghiên cứu.(chúng ta hay thấy có cụm từ significant ...)


So sánh các giá trị trung bình
T-test

T-test được dùng để so sánh điểm trung bình của hai nhóm. Ví dụ nhà nghiên cứu muốn tìm hiểu xem phương pháp dạy học X và Y có hiệu quả khác nhau hay không. Sau khi bố trí một cách ngẫu nhiên (randomly) 50 học sinh lớp 11 học môn Hóa học theo phương pháp X và 50 học sinh lớp 11 học môn Hóa học theo phương pháp Y. Sau một số buổi dạy hoặc khi hết học kỳ, họ tổ chức đánh giá hiệu quả dạy học bằng cách cho hai nhóm học sinh làm cùng bài kiểm tra hoặc trắc nghiệm. Sau khi có được điểm trung bình của hai nhóm, nhà nghiên cứu sẽ dùng t-test để kiểm tra xem hai điểm trung bình của hai nhóm (với các điều kiện ban đầu như học lực, hứng thú là như nhau) có khác nhau một cách có ý nghĩa thống kê (statistical significant) hay không. Từ đó họ có thể suy ra hai phương pháp dạy học đó hiệu quả khác nhau không và cũng tìm ra phương pháp nào hiệu quả hơn.

ANOVA F test

T-test dùng để tìm xem có sự khác biệt hay không giữa hai nhóm. Tuy vậy, nhiều khi nhà nghiên cứu lại muốn tìm hiểu xem có sự khác biệt hay không giữa ba hoặc hơn ba nhóm, ví dụ ba nhóm học sinh được dạy theo phương pháp X, Y và Z. Trong tình huống này, họ có thể dùng ba t-test để so sánh: X,Y – Y,Z và Z,X. Nhưng cách so sánh này không giúp đối chiếu cả ba phương pháp cùng một lúc hay cho biết phương pháp nào là hiệu quả nhất. Phân tích phương sai, hay ANOVA (viết tắt của analysis of variance) có thể giúp nhà nghiên cứu trả lời câu hỏi này.
ANOVA đặc biệt hữu ích trong so sánh các phương pháp học tập, dạy học khác nhau ở những khách thể khác nhau. Có nhiều mô hình ANOVA khác nhau tùy thuộc vào số lượng các phương pháp dạy và học và đối tượng nghiên cứu.

ANOVA một chiều (one-way ANOVA) được sử dụng để kiểm tra sự khác nhau giữa hai (hoặc nhiều hơn) nhóm độc lập. Thường thì người ta dùng ANOVA một chiều để so sánh sự khác nhau giữa ít nhất là ba nhóm, vì so sánh hai nhóm có thể được thực hiện bởi T-test (Gossett, 1908). Khi chỉ so sánh hai nhóm, T-test và F-test chỉ là một, khi đó mối liên hệ giữa ANOVA và t là F = t2.

ANOVA giai thừa (factorial ANOVA) được sử dụng khi nhà nghiên cứu muốn tìm hiểu về hiệu quả của hai (hoặc nhiều hơn) phương pháp dạy học khác nhau. Hình thức thông dụng nhất của ANOVA giai thừa là 2x2, trong đó có hai biến độc lập và mỗi biến có hai mức độ giá trị phân biệt. ANOVA giai thừa cũng có thể ở đa cấp như 3x3, hoặc cao hơn như 2x2x2. Nhưng ANOVA ở các cấp cao như vậy khó có thể làm bằng tay bởi các phép tính rất dài và phức tạp. Nhưng do sự phổ biến của các phần mềm thống kê, việc sử dụng ANOVA trong nghiên cứu trở nên khá phổ biến và thông dụng.

Tương quan và hồi quy
Một chức năng cơ bản của thống kê mô tả là nhằm cung cấp chỉ số cho mối quan hệ giữa hai biến. Tương quan được dùng để mô tả mối quan hệ giữa các biến ngẫu nhiên. Chỉ số tuyến tính được sử dụng khi với biến ngẫu nhiên và biến được cố định bởi người nghiên cứu.

Tương quan (correlation)

Trong xác suất thống kê, tương quan (thường được đo như là hệ số tương quan ρ) là chỉ số biểu diễn độ mạnh và chiều hướng của mối quan hệ tuyến tính giữa hai biến. Ví dụ như hai thang đo hay bảng hỏi, tương quan biểu diễn mức độ kết nối giữa chúng, trong phạm vi của điểm chuẩn (điểm số Z). Ví dụ, nếu tương quan giữa hai thang đo A và B là 0.6, có nghĩa là với 1 thay đổi trong độ lệch chuẩn (standard deviaton, viết tắt là SD) ở thang đo A, thì thang đo B thay đổi cùng chiều 0.6 trong độ lệch chuẩn.
Trong nghiên cứu không có tương quan “tốt” hay “xấu”, hay cả tương quan “cao” hay “thấp” cũng rất tương đối vì nó còn phụ thuộc vào khung cảnh và mục đích nghiên cứu. Hệ số tương quan là 0.9 có thể là rất thấp khi một người kiểm tra lại kích thước của một loại máy móc nào đó và dùng thước đo chính xác cao (đến mức độ micromet chẳng hạn). Nhưng 0.9 lại là rất cao trong nghiên cứu xã hội, vì có quá nhiều sai số từ những yếu tố phức tạp khác.
Cohen (1988) đề xuất diễn giải về độ lớn của hệ số tương quan như sau:
Hệ số tương quan Tương quan nghịch (hệ số ρ < 0) Tương quan thuận (hệ số ρ > 0)
Thấp -0.3 đến -0.1 0.1 đến 0.3
Trung bình -0.5 đến -0.3 0.3 đến 0.5
Cao -1.0 đến -0.5 0.5 đến 1.0

Hồi quy bội (multiple-regression)

Hồi quy bội là dạng mở rộng của mô hình hồi quy tuyến tính (linear regression) bao gồm hai biến (hoặc nhiều hơn) giải thích trong một hằng số dự đoán một biến kết quả. Hình hồi quy bội là một hướng cơ bản của phân tích thống kê ở hầu hết các lĩnh vực bởi nó rất mạnh và linh hoạt.
Các phân tích tuyến tính được sử dụng rộng rãi trong nghiên cứu. Nói chung, hồi quy tuyến tính cho phép nhà nghiên cứu có thể đặt câu hỏi (và trả lời) “Dự báo tốt nhất của yếu tố… là gì…?”. Một nhà tâm lý có thể quan tâm đến việc yếu tố nào của nhân cách dự đoán tốt nhất sự hòa nhập xã hội của họ. Một nhà xã hội học có thể muốn tìm hiểu tập hợp những chỉ số xã hội nào dự đoán liệu một nhóm người di cư có thể thích nghi vào môi trường xã hội mới. Trong giáo dục, cán bộ phụ trách tuyển sinh của một trường đại học có thể quan tâm tới việc lấy những tiêu chí nào để chọn được những ứng viên có khả năng hoàn thành chương trình học cao nhất. Khả năng hoàn thành chương trình học có thể được đại diện bằng điểm tổng kết (ĐTK) là một biến chưa có và cần được dự đoán. Những biến sẵn có và để dự đoán bao gồm điểm thi đại học (ĐTĐH), điểm trung bình của ba năm cấp III (ĐTBCIII), bản đánh giá về ý thức học tập trong học bạ (YTHT)… Hồi quy bội có thể giúp chúng ta dự đoán khả năng hoàn thành chương trình của ứng viên từ những chỉ số sẵn có. Một công thức tuyến tính đa chiều có thể được biểu diễn như sau:
ĐTK = β1(ĐTĐH) + β2(ĐTBCIII) + β3(YTHT)
Hoặc khái quát hơn: Y = β1X1 + β2X2 + β3X3
Giả sử trong trường hợp này, β1=0.2, β2 = 0.5 và β3=0.3, vì vậy: Y = 0.2X1 + 0.5X2 + 0.3X3
Vì chỉ số β1 nhỏ hơn chỉ số β2, cán bộ phụ trách đó có thể kết luận rằng, điểm trung bình ba năm cấp III là chỉ số dự đoán chính xác nhất cho khả năng hoàn thành khóa học, chứ không phải điểm thi đại học. β3 nhỏ hơn β2 nhưng lại lớn hơn β1, nên điểm trung bình cấp III và nhận xét của giáo viên về ý thức học tập là những yếu tố dự đoán quan trọng hơn điểm thi đại học, trong đó điểm trung bình cấp III là yếu tố dự đoán cao nhất.

Mô hình đẳng thức cấu trúc (SEM)
Mô hình đẳng thức cấu trúc (Structural Equation Modeling, viết tắt là SEM) là một dạng phân tích thống kê cao cấp, trong đó dự đoán độ lớn và mức độ ý nghĩa thống kê của quan hệ nhân quả giữa các biến. Nhưng, hơn cả việc ước đoán mối quan hệ nhân quả giữa các biến trong số liệu thực sự được thu thập bởi nhà nghiên cứu, nó còn ước đoán mối quan hệ giữa các “biến ẩn” . (xem biểu đồ 1 - đây là một biểu đồ trên mạng chỉ mang ý nghĩa minh họa).


Tất cả các số liệu nghiên cứu đều có sai số (được ký hiệu “e” trong biểu đồ 1). Trong đó, điểm của mỗi khách thể trả lời bảng nghiên cứu bị ảnh hưởng bởi các biến ẩn mà chúng ta quan tâm và những yếu tố khác không liên quan tới những biến ẩn này. Ví dụ, điểm của khách thể trên thang đo trầm cảm bị ảnh hưởng bởi mức độ bị trầm cảm của họ, nhưng cũng bị ảnh hưởng bởi các yếu tố khác như lúc trả lời bảng hỏi, họ có bị mệt không, có đói không, hay hôm đó họ có chuyện gì vui hay không, v.v.. Mục đích chủ đạo của SEM là loại bỏ những sai số này để điểm của khách thể chỉ bị ảnh hưởng bởi các biến ẩn mà chúng ta quan tâm. Để làm được điều này, chúng ta cần một số biến sẵn có để đánh giá cùng một biến ẩn.

Nguon: Tran van Cong và Weiss

0 comments: