Phương pháp chọn mẫu ngẫu nhiên đơn giản

Phương pháp chọn mẫu ngẫu nhiên đơn giản

Hình 1: Quy trình chọn mẫu trong khảo sát

Phương pháp chọn mẫu

Có 2 phương pháp:

  1. Chọn mẫu xác suất: biết được xác suất lượng đối tượng tham gia khảo sát, quá trình chọn mẫu sử dụng các phương pháp dựa trên lý thuyết xác suất. Khả năng được chọn thành mẫu của tất cả đơn vị trong tổng thể đều như nhau.
  2. Chọn mẫu phi xác suất: quá trình lựa chọn không cố định hoặc được xác định từ trước mà thường dựa trên khả năng chọn mẫu của nhà nghiên cứu. Khả năng được chọn thành mẫu của tất cả đơn vị trong tổng thể không ngang nhau. 

Chọn mẫu xác suất

  1. Chọn mẫu ngẫu nhiên đơn giản: mọi đơn vị của tổng thể được chọn một cách ngẫu nhiên, tình cờ. Xác suất được chọn đều như nhau giữa các đối tượng nghiên cứu.
  2. Chọn mẫu theo cụm: chia nhỏ tổng thể thành từng cụm để đại diện cho tổng thể. Các cụm được chia dựa trên thông số nhân khẩu học như tuổi tác, giới tính, địa chỉ hoặc khối, đoàn (VD phường, làng, xã, huyện,…). Nhà nghiên cứu lựa chọn một số cụm đã chia và tiến hành nghiên cứu/khảo sát trên các cụm đã chọn đó. Phương pháp được sử dụng khi không có sẵn danh sách đầy đủ của các đơn vị trong tổng thể.
  3. Chọn mẫu theo hệ thống: Đánh số/điểm bắt đầu của tổng thể theo thứ tự và chọn các mẫu với kích cỡ như nhau, với khoảng cách giữa các mẫu được chọn trong tổng thể ngang nhau. Phương pháp sử dụng khi đã có phạm vị xác định từ trước, kĩ thuật lấy mẫu tốn ít thời gian nhất.
  4. Chọn mẫu ngẫu nhiên phân tầng: chia tổng thể thành từng nhóm nhỏ không trùng nhau theo 1 hoặc 1 vài tiêu thức liên quan đến mục đích nghiên cứu (mỗi nhóm đều có đủ tính cách đại diện cho tổng thể). Khi chọn mẫu, các nhóm nhỏ được sắp xếp lại và nhà nghiên cứu sẽ chọn một mẫu từ mỗi nhóm một cách riêng biệt. 

Tác dụng của chọn mẫu xác suất

  • Giảm độ lệch mẫu: độ lệch mẫu không đáng kể hoặc không tồn tại. Việc lựa chọn chủ yếu dựa trên hiểu biết và suy luận của người nghiên cứu. Dữ liệu thu được chất lượng cao hơn vì mẫu đại diện cho tổng thể thích hợp hơn.
  • Tổng thể đa dạng: Khi các đơn vị trong tổng thể quá rộng lớn và đa dạng, điều cần thiết là phải có sự đại diện đầy đủ để dữ liệu không bị lệch về một nhân khẩu học, hoặc một khía cạnh nhất định trong tổng thể.
  • Tạo mẫu chính xác: Lấy mẫu theo xác suất giúp các nhà nghiên cứu lập kế hoạch và tạo ra mẫu chính xác. Điều này giúp thu được dữ liệu xác định rõ ràng.

Chọn mẫu phi xác suất

  • Chọn mẫu thuận tiện: dựa trên khả năng tiếp cận đối tượng khảo sát: tính dễ dàng, thuận tiện trong quá trình thực hiện, tiếp cận và liên hệ tới các đối tượng của nhà nghiên cứu mà không có bất kì thẩm quyền lựa chọn nào và không có tính đại diện. Phương pháp này thường được thực hiện khi thời gian, chi phí hoặc nhân lực bị giới hạn.
  • Chọn mẫu theo phán đoán hoặc có mục đích: dựa trên quyết định của người nghiên cứu. Những người này sẽ xem xét, cân nhắc mục đích của nghiên cứu cùng với sự hiểu biết của chính các đơn vị của tổng thể để thực hiện chọn mẫu. Do tính chất có phần phụ thuộc vào sự hiểu biết của mẫu, phương pháp chỉ áp dụng khi các đặc tính của đơn vị trong tổng thể được chọn đã khá rõ rang.
  • Chọn mẫu theo lí thuyết quả cầu tuyết: phương pháp cần các nhà nghiên cứu tham gia thực hiện cộng tác khi chủ đề hoặc đối tượng cần nghiên cứu quá khó, quá nhạy cảm để tiến hành theo cách thông thường. Chẳng hạn như đối tượng là những người nhập cư, di dân hoặc những người bị nhiễm HIV Aids. Khi đó, các nhà nghiên cứu sẽ liên hê với những người thuộc đối tượng khảo sát mà họ quen biết, hoặc liên hệ với các tình nguyện viên, những người quen biết, có liên hệ tới đối tượng khảo sát đê thu thập thông tin.
  • Chọn mẫu theo hạn ngạch: các đối tượng được chọn dựa trên một số tiêu chuẩn cố định. Các đơn vị được lựa chọn trên tiểu chuẩn đã xác định trước đó sao cho tổng mẫu có cùng phân phối, tỉ lệ và các đặc điểm giả định tồn tại trong chính tổng thể.

Tác dụng của chọn mẫu phi xác suất

  • Tạo giả thuyết: Các nhà nghiên cứu sử dụng phương pháp chọn mẫu phi xác suất để tạo ra một giả định khi bị giới hạn thông tin, thông tin không sẵn có. Phương pháp này giúp trả về dữ liệu ngay lập tức và xây dựng cơ sở để nghiên cứu thêm.
  • Nghiên cứu thăm dò: Các nhà nghiên cứu sử dụng rộng rãi kỹ thuật lấy mẫu này khi thực hiện nghiên cứu định tính, nghiên cứu thử nghiệm hoặc nghiên cứu thăm dò.
  • Ràng buộc về ngân sách và thời gian: khi có những ràng buộc về ngân sách và thời gian, đồng thời phải thu thập một số dữ liệu sơ bộ. Vì thiết kế khảo sát không cứng nhắc, nên việc chọn ngẫu nhiên người trả lời và yêu cầu họ thực hiện khảo sát hoặc bảng câu hỏi sẽ dễ dàng hơn.

Quyết định sử dụng phương pháp chọn mẫu

Các bước xác định phương pháp chọn mẫu:

  • Nắm rõ mục tiêu nghiên cứu, thường sẽ là sự kết hợp giữa chi phí, độ chính xác, rõ rang.
  • Xác định các kĩ thuật chọn mẫu hiệu quả có khả năng giúp đạt được mục tiêu nghiên cứu
  • Thử nghiệm các phương pháp và kiểm tra xem chúng có giúp đạt được mục tiêu.
  • Lựa chọn phương pháp phù hợp nhất với nghiên cứu.

So sánh giữa 2 phương pháp: chọn mẫu xác suất và chọn mẫu phi xác suất

Trong thống kê, một mẫu ngẫu nhiên đơn là một tập hợp con của các cá thể (một mẫu) được lựa chọn từ một tập hợp lớn hơn (một quần thể). Mỗi cá thể được chọn ngẫu nhiên và hoàn toàn tình cờ, như vậy là mỗi cá thể đều có cùng xác suất bị chọn ở các giai đoạn trong quá trình lấy mẫu, và mỗi tập hợp con của k cá thể này có cùng xác suất được chọn mẫu như bất kỳ tập con của k cá thể khác. Quá trình kỹ thuật này được gọi là lấy mẫu ngẫu nhiên đơn, và không nên nhầm lẫn với lấy mẫu ngẫu nhiên hệ thống. Một mẫu ngẫu nhiên đơn là một kỹ thuật khảo sát không thiên vị.

Như vậy đây là mẫu mà tất cả các thể trong quần thể có cùng cơ hội để chọn vào mẫu. Và là dạng đơn giản nhất của mẫu xác suất.

Lấy mẫu ngẫu nhiên đơn là một loại hình cơ bản của việc lấy mẫu, vì nó có thể là một phần của phương pháp lấy mẫu khác phức tạp hơn. Các nguyên tắc lấy mẫu ngẫu nhiên đơn là mỗi đối tượng có cùng xác suất được chọn. Ví dụ, giả sử sinh viên đại học N muốn có được một vé cho một trò chơi bóng rổ, nhưng chỉ có X

Cụ thể hơn để chọn một mẫu ngẫu nhiên đơn ta cần lập danh sách toàn bộ những đơn vị trong quần thể mà muốn rút ra một mẫu; chọn đơn vị mẫu sẽ được lấy vào mẫu, sử dụng phương pháp bốc thăm hoặc sử dụng bảng số ngẫu nhiên. Một ví dụ khác, giả sử một mẫu ngẫu nhiên đơn gồm 50 sinh viên được chọn từ một trường học có 250 sinh viên. Sử dụng danh sách của 250 sinh viên, mỗi sinh viên nhận một số thứ tự (từ 1 tới 250), và những số này được viết trên một mẫu giấy nhỏ. Toàn bộ nhữn mẫu giấy có số này được gập lại bỏ vào một cái hộp, lắc kỹ để đảm bảo là ngẫu nhiên. Tiếp theo, 50 mẫu giấy được lấy ra và số của chúng được ghi lại. Những sinh viên có những số này nằm trong mẫu nghiên cứu

Bảng số ngẫu nhiên Là một bảng tạo bởi 10 ký tự (0, 2, 3, …, 9) mà sự xuất hiện của mỗi ký tự trong bảng có tỉ lệ như nhau và không theo một trật tự nào, hoàn toàn ngẫu nhiên. Cho nên, nếu chọn một số từ một điểm ngẫu nhiên nào đó trên bảng thi bất kỳ một ký tự nào cũng có cơ hội như nhau được xuất hiện.

Chẳng hạn, muốn chọn ngẫu nhiên một mẫu 200 trẻ trong một trường hợp có 625 trẻ để điều tra một vấn đề sức khỏe nào đó. 625 trẻ sẽ được đánh số thứ tự từ 1 đến 625 (khung mẫu). Như vậy, ta chỉ dùng 3 ký tự kế tiếp nhau trong bảng. Vào bảng một cách ngẫu nhiên (ví dụ: dùng đầu bút chì, không nhìn vào bảng, chấm vào một điểm nào đó trong bảng) bắt đầu từ điểm đó bằng một số có 3 ký tự, ví dụ điểm đó nằm vào bảng thứ 5 cột thứ ba của bảng ta đọc lần lượt theo chiều từ trên xuống dưới và từ trái qua phải, được các số 330, 369, 743, 273, 943, 002, 871, 918, 702, 318,… Chọn ra 200 số có 3 ký tự (không lấy các ký tự 000, các ký tự lớn hơn 625, chỉ lấy ra một lần, không lấy các ký tự lập lại); Như vậy ta đã có một mẫu 200 trẻ

Một lựa chọn ngẫu nhiên không thiên vị của cá thể là quan trọng do đó nếu một số lượng lớn các mẫu được rút ra, những mẫu trung bình sẽ đại diện cho chính xác dân số. Tuy nhiên, điều này không đảm bảo rằng một mẫu cụ thể là một đại diện hoàn hảo của quẩnf thể. Lấy mẫu ngẫu nhiên đơn giản chỉ cho phép một để rút ra kết luận bên ngoài giá trị về toàn bộ dân số dựa trên mẫu.

Về mặt khái niệm, lấy mẫu ngẫu nhiên đơn giản là đơn giản nhất trong kỹ thuật lấy mẫu xác suất. Nó đòi hỏi một hoàn thiện khung lấy mẫu, trong đó có thể không có sẵn hoặc không khả thi để xây dựng cho các quần thể lớn. Thậm chí, nếu một khung hoàn chỉnh có sẵn, phương pháp tiếp cận hiệu quả hơn có thể thực hiện được nếu các thông tin hữu ích khác có sẵn về các đơn vị trong dân số.

Ưu điểm của nó là dễ thực hiện, đòi hỏi kiến ​​thức tối thiểu để tiến hành. Chính sự đơn giản của nó cũng làm cho nó tương đối dễ dàng để giải thích các dữ liệu thu thập được. Đối với nhiều lý do khác nhau, lấy mẫu ngẫu nhiên đơn giản phù hợp nhất với tình huống mà không có nhiều thông tin sẵn có về dân số và thu thập dữ liệu có thể được tiến hành một cách hiệu quả vào các mặt hàng được phân phối ngẫu nhiên, hoặc trong trường hợp chi phí lấy mẫu là nhỏ đủ để làm cho hiệu quả ít quan trọng hơn so với sự đơn giản. Nếu những điều kiện này không giữ vững thì lấy mẫu phân tầng hoặc chọn mẫu cụm có thể là một lựa chọn tốt hơn.

Mục lục

  • 1 Các thuật toán
  • 2 Phân biệt giữa một mẫu ngẫu nhiên hệ thống với một mẫu ngẫu nhiên đơn
  • 3 Lấy mẫu một số nhị phân
  • 4 Tham khảo
  • 5 Xem thêm
  • 6 Tham khảo

Các thuật toánSửa đổi

Một số thuật toán hiệu quả để lấy mẫu ngẫu nhiên đơn giản đã được phát triển. Một thuật toán ngẫu nhiên là thuật toán the draw-by-draw (vẽ-by-rút thăm) mà ở mỗi bước chúng ta loại bỏ mục từ các thiết lập với xác suất bằng nhau và đặt trong mẫu. Chúng ta tiếp tục cho đến khi chúng ta có mẫu kích thước mong muốn k. Nhược điểm của phương pháp này là nó đòi hỏi thực hiện chọn ngẫu nhiên trong bộ này.

Các thuật toán lựa chọn đào thải được phát triển bởi Fan et al năm 1962 đòi hỏi phải qua đơn hơn tuy nhiên dữ liệu thuật toán tuần tự của nó và đòi hỏi kiến thức tổng số mục n mà không có sẵn trong kịch bản streaming.

Một thuật toán sắp xếp ngẫu nhiên rất đơn giản đã được chứng minh bởi Sunter năm 1977, chỉ đơn giản là gán một số ngẫu nhiên rút ra từ phân bố đều (0, 1) như là chìa khóa cho từng hạng mục, sắp xếp tất cả các cá thể sử dụng phím và lựa chọn các cá thể k nhỏ nhất.

J. Vitter năm 1985 đề xuất hồ lấy mẫu thuật toán thường được sử dụng rộng rãi. Thuật toán này không đòi hỏi kiến ​​thức trước của n và sử dụng không gian liên tục.

Lấy mẫu ngẫu nhiên cũng có thể được tăng tốc bằng cách lấy mẫu từ phân phối các khoảng trống giữa các mẫu, và bỏ qua các khoảng trống.

Phân biệt giữa một mẫu ngẫu nhiên hệ thống với một mẫu ngẫu nhiên đơnSửa đổi

Hãy xem xét một trường học với 1.000 học sinh, giả sử rằng một nhà nghiên cứu muốn chọn 100 người trong số họ để nghiên cứu thêm. Tất cả các tên của họ có thể được đặt trong một cái xô và sau đó 100 tên có thể được lấy ra. Không chỉ mỗi người đều có cơ hội được chọn như nhau, chúng ta cũng có thể dễ dàng tính toán xác suất P của một người nhất định được lựa chọn, vì chúng ta biết cỡ mẫu (n) và dân số (N):

1. Trong trường hợp đó, bất kỳ người nào chỉ có thể được lựa chọn một lần (tức là, sau khi lựa chọn một người được lấy ra từ các cái xô để chọn):

2. Trong trường hợp đó, bất kỳ người nào được chọn sẽ được trở lại cái xô chọn (ví dụ, có thể được chọn nhiều hơn một lần):

Điều này có nghĩa rằng mỗi học sinh trong các trường học có trong bất kỳ trường hợp khoảng một trong 10 cơ hội được lựa chọn sử dụng phương pháp này. Hơn nữa, tất cả các kết hợp của 100 học sinh có cùng xác suất lựa chọn.

Nếu một mô hình hệ thống được giới thiệu vào lấy mẫu ngẫu nhiên, nó được gọi là "hệ thống (ngẫu nhiên) lấy mẫu". Một ví dụ là nếu các sinh viên trong trường đã số gắn liền với tên tuổi của họ khác nhau, 0001-1000, và chúng tôi đã chọn một điểm khởi đầu ngẫu nhiên, ví dụ như 0533, và sau đó chọn tất cả các tên thứ 10 sau đó để cung cấp cho chúng tôi mẫu của chúng tôi là 100 (bắt đầu lại với 0003 sau khi đạt 0993). Trong ý nghĩa này, kỹ thuật này cũng tương tự như cụm lấy mẫu, vì sự lựa chọn của đơn vị đầu tiên sẽ quyết định phần còn lại. Điều này không còn lấy mẫu ngẫu nhiên đơn giản, bởi vì một số sự kết hợp của 100 học sinh có một xác suất lựa chọn lớn hơn hơn những người khác - ví dụ, {3, 13, 23,..., 993} có một cơ hội 1/10 lựa chọn, trong khi {1, 2, 3,..., 100} có thể không được lựa chọn theo phương pháp này.

Lấy mẫu một số nhị phânSửa đổi

Tham khảoSửa đổi

Xem thêmSửa đổi

Mẫu hệ thống

Mẫu chùm

Mẫu tầng

Mẫu nhiều giai đoạn

Tham khảoSửa đổi