Bảng số liệu thống kê ban đầu là gì năm 2024
Thống Kê (Statistics) từng là “nỗi ám ảnh” đối với nhiều học sinh, sinh viên thuộc các khối Kinh Tế bởi lượng kiến thức lớn và bao gồm nhiều kỹ thuật phức tạp. Dù vậy, bạn không cần phải quá xuất sắc về Toán thì mới có thể thông thạo Statistics. Bài viết này sẽ cho bạn một cái nhìn tổng quát nhất về Thống kê cũng như những khái niệm xung quanh lĩnh vực này. Show Lưu ý nè: Nếu bạn đang muốn phát triển theo hướng thành một Data Analyst (DA) thì không thể bỏ qua các kiến thức hữu ích về Thống Kê đâu nhé! 1. Thống Kê là gì? Tìm hiểu về Thống Kê cơ bảnBạn hiểu gì về Thống kê? Khi nói về Thống Kê - Statistics - thì điều gì sẽ xuất hiện trong suy nghĩ của bạn đầu tiên? Đối với hầu hết mọi người, Thống Kê liên quan đến chuỗi các sự kiện, dữ liệu số học như số liệu về tỉ lệ thất nghiệp, giá nông sản, số lượng các kết hôn và ly hôn,... Dưới đây là 2 định nghĩa phổ biến của Thống Kê: Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng số(numerical) hoặc không phải dạng số (nonnumerical), được tổ chức và tóm tắt, để cung cấp thông tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó. Thống kê là khoa học về tổ chức và tóm tắt thông tin dạng số hoặc không phải dạng số. Nhiệm vụ của các nhà thống kê (statistician) là phân tích dữ liệu nhằm mục đích tổng quát hóa (generalization) và đưa ra các kết luận. Ví dụ :Một nhà phân tích chính trị (political analyst) có thể sử dụng một phần dữ liệu từ bỏ phiếu của người dân để dự đoán xem ai là người có khả năng đắt cử mà không cần phải có toàn bộ dữ liệu. Theo mình thì các bạn đừng nên dịch từ Generalization ra tiếng việt, bạn có thể hiểu nó là hành vi đưa ra một nhận định, kết luận cho đại diện cho toàn bộ tập dữ liệu (population) từ những dữ liệu mẫu được thu thập (sample), vì trong nhiều trường hợp thu thập toàn bộ dữ liệu cần thiết là việc không khả thi và tốn kém. Nếu phải bắt buộc dịch mình sẽ dùng từ Khái quát hóa. 2. Các ứng dụng Thống Kê trong kinh doanhCó bao nhiêu loại Thống Kê? Ứng dụng Thống Kê trong kinh doanh như thế nào? Thống Kê được chia làm 2 loại chính: Descriptive Statistics (Thống kê mô tả) và Inferential Statistics (Thống kê suy luận) Descriptive statistics consists of methods for organizing and summarizing information. Thống kê mô tả bao gồm việc xây dựng đồ thị, bảng số liệu và tính toán các chỉ sốmô tả (descriptive measures) như: trung bình (mean), độ biến thiên (variation), bách phân vị (percentiles). Trước khi tìm hiểu về Inferential Statistics thì chúng ta sẽ đi qua khái niệm về Population và Sample, Census trước, chắc là bạn đã nghe 3 từ này ở đâu đó rồi đúng không nào Population: The collection of all individuals or items under consideration in a statistical study. Sample: That part of the population from which information is obtained. Population là toàn bộ phần tử hay đối tượng được cho là có mặt trong nghiên cứu của bạn không phải dịch ra là dân số đâu nhé, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset). Ví dụ sau đây sẽ giúp bạn hiểu rõ về các khái niệm nêu trên: Population and SampleGiả sử bạn đang thực hiện nghiên tiền bầu cử, thì việc phỏng vấn toàn bộ người trong độ tuổi đi bầu (Population) là bất khả thi, mất rất nhiều thời gian và rất đắt đỏ. Nên thay vào đó chúng ta sẽ chọn ra khoảng vài nghìn cử tri (Sample) để thực hiện lấy ý kiến . Từ tập dữ liệu Sample này các nhà thống kê sẽ thực hiện Thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ người trong độ tuổi đi bầu hay Population đấy các bạn. Inferential statistics consists of methods for drawing and measuring the reliability of conclusions about a population based on information obtained from a sample of the population. Thống kê mô tả bao gồm các phương pháp nhằm rút ra và đo lường mức độ tin cậy của các kết luận về toàn bộ tập dữ liệu Population dựa trên tập dữ liệu mẫu Sample thu được. Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau. Bạn gần như phải luôn luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thông tin thu được từ tập Sample trước khi thực hiện thống kê suy luận. Hơn nữa nhờ thống kê mô tả cho bạn thông tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp. Nó giống như việc thăm khám, chẩn đoán bệnh xong thì mới cho thuốc được vậy. 3. Statistics cơ bản - Phân loại các nghiên cứu Thống KêNếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thông tin hữu ích có trong bản thân dữ liệu thôi thì đây là nghiên cứu thiên hướng mô tả (Descriptive Statistics). Các Reports và Dashboards mà các bạn Data Analyst xây dựng cho công ty là một ví dụ. Đây là một ví dụ cho Thống kê mô tả vì nó chỉ là một bảng tóm tắt kết quả mà thôi, không có bất kì suy luận nào. Kết quả bỏ phiếu tổng thống mỹ năm 1948Tuy nhiên nếu như dữ liệu thu thập được là một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận. Một nhóm nghiên cứu đã tiến hành thí nghiệm về tốc độ giữa báo và sư tử bằng cách đo thời gian hoàn thành 1 km của 20 con báo và 20 con sư tử, kết luận cho thấy báo chạy nhanh gấp đôi sư tử. Đây là một nghiên cứu thống kê suy luận vì thứ nhất chúng ta dùng tập mẫu 20 con báo và 20 con sư tử (Sample) để đưa ra kết luận về toàn bộ cá thể báo, sư tử (Population), rõ ràng việc lấy mẫu toàn bộ sư tử và báo là bất khả thi, thứ hai sau khi thí nghiệm chúng ta đã đưa ra kết luận mang tính suy luận về tốc độ của 2 loài này. 4. Quá trình phát triển của Thống kêPhoto by Clay Banks / Unsplash Theo lịch sử, thống kê mô tả có trước thống kê suy luận, điều tra dân số đã có trước đây rất lâu từ thời La Mã, qua nhiều thế kỉ những ghi chép về các số liệu sinh, tử, hôn nhân, thuế suất dẫn đến sự phát triển tự nhiên của thống kê mô tả. Trong khi đó thống kê suy luận chỉ mới phát triển gần đây, bước tiến lớn nhất bắt đầu từ nghiên cứu của Karl Pearson (1857–1936) và Ronald Fisher (1890–1962) đã xuất bản những phát hiện của họ vào những năm đầu thế kỉ XX. Sau đó thống kê suy luận đã được áp dụng trong hầu hết các lĩnh vực của cuộc sống. Các hiểu biết về thống kê sẽ giúp bạn nhận định xem những điều bạn đọc trên báo chí hay Internet có chính xác hay không. Như ví dụ ở trên nhóm nghiên cứu sinh thực nghiệm trên 40 sư tử và báo để đưa ra kết luận về vài chục ngàn cá thể báo, sư tử trên thế giới có chính xác hay không ? 5. Observational Studies vs Designed ExperimentsPhoto by Clay Banks / Unsplash Bên cạnh việc phân loại các nghiên cứu thuộc thống kê mô tả hay suy luận chúng ta còn phải phân biệt chúng là Nghiên cứu quan sát hay Thí nghiệm được thiết kế. Trong nghiên cứu quan sát các nhà nghiên cứu chỉ cần quan sát các đặc điểm và ghi nhận số liệu đo lường của tập Sample. Trong Designed Experiment các nhà nghiên cứu sẽ thực hiện các liệu pháp (treatment) và kiểm soát đối tượng thí nghiệm (có tác động lên tập mẫu đó các bạn) sau đó mới ghi lại các đặc điểm và số liệu đo lường. Observational Study chỉ cho chúng ta thấy được mối liên kết (association) trong khi Designed Experiment lại cho chúng ta thấy được mối quan hệ nguyên nhân, kết quả, mình sẽ đưa ra một vài ví dụ cho bạn dễ hiểu hơn nhé
Các phương pháp Thống Kê cơ bảnThống kê là một lĩnh vực nghiên cứu rộng lớn và đa dạng, sử dụng nhiều phương pháp khác nhau trong lĩnh vực nghiên cứu khoa học. Các phương pháp thống kê cơ bản bao gồm:
(*) Bài viết này có tham khảo thông tin từ: Introductory Statistics (2017) - Pearson Trở thành Chuyên Viên Phân Tích Dữ Liệu - hay Data Analys (DA) - là giấc mơ chung của nhiều bạn trẻ. Trong quá trình học tập thì Thống Kê là một kỹ năng hết sức cần thiết. Bạn có thể tham khảo thêm các khóa học dữ liệu trên 200Lab hay đọc thêm các bài viết hay trên trang Blog Dữ Liệu và Lập Trình của 200Lab nhé. |