Thuộc tính định danh là gì

Hiểu các khái niệm trong KTDL giúp các bạn đọc hiểucác bài báo về lĩnh vực này, tôi sẽ giải thích một số khái niệm các bạn thường gặp như sau:

Một bộ dữ liệu tạo nên một data object, một thực thể. Ví dụ trong CSDL bán hàng, object có thể là khách hàng, mặt hàng, hóa đơn. Trong CSDL y tế, object có thể là bệnh nhân, thuốc. Trong CSDL trường học, object có thể là sinh viên, giáo sư, khóa học. Data Object được mô tả bởi các thuộc tính. Data object còn có các tên gọi khác như samples, examples, instances, data points, hoặc objects

Một thuộc tính là một trường dữ liệu, biểu diễn đặc trưng, đặc điểm của một data object. Một số tên gọi khác như dimension, feature, và variable.Khái niệmdimension hay dùng trong các tài liệu nói về data warehouse, featurehay gặp trong các tài liệu machine learning và variablehay gặp trong lĩnh vực thống kê. Đối với KTDL, nó thường gọi là attribute.

Thuộc tính mô tả đặc điểm của đối tượng, ví dụ thuộc tính mô tả một đối tượng khách hàng bao gồm mã khách hàng, họ tên, đia chỉ. Một tập các thuộc tính để mô tả đối tượng gọi là attribute vector.Nếu dữ liệu có một thuộc tính gọi là univariate, hai thuộc tính gọi là bivariate, còn nhiều hơn 2 thì gọi là attribute

Kiểu dữ liệu thuộc tính được xác định bởi các giá trị có thể có của thuộc tính, nó có thể gồm kiểu chuỗi, kiểu số, kiểu nhị phân,.

Giá trị thuộc tính này thường là tên một thứ gì đó, hoặc một cách diễn đạt nào đó. Nó còn được gọi là danh mục [categorical]. Giá trị của nó không có ý nghĩa tính toán, nó chỉ đơn giản là liệt kê.

Ví dụ để mô tả một đối tượng người ta có thể dùng 2 thuộc tính hair_color và marital_status. Các giá trị thuộc tính hair_color có thể là: black, brown, blond, red, auburn, gray, white. Các giá trị thuộc tínhmarital_status có thể là: single, married, divorced, và widowed. Cả hai thuộc tính này gọi là: nominal attribute.

Nominal attribute có thể biểu diễn dưới dạng số thay vì chuỗi. Ví dụ chúng ta có thể thay thế các giá trịblack, brown, blond tương ứng với 0,1,2 Những con số thay thế này không có ý nghĩa về mặt số lượng, vì vậy áp dụng toán học trên dữ liệu này là vô nghĩa. Ví dụ cộng tuổi của người này với người khác, tính trung bình mã khách hàng,. Tuy nhiên thuộc tính này có thể đo được mật độ, tần suất.

Thuộc tính nhị phân có giá trị 0 và 1. Giá trị 0 đại diện cho sự không xuất hiện, không có, ngược lại với giá trị 1. Ví dụ ta có thuộc tính smoker biểu diễn một người nào đó có hút thuốc hay không hút thuốc. Giá trị 0 đại diện không hút thuốc và ngược lại giá trị 1 đại diện có hút thuốc.

Thuộc tính nhị phân được gọi là cân xứng khi cả 2 trạng thái có tính tương đồng, tức là không có cái nào quan trọng hơn cái nào, như nhau về mặt bản chất. Ví dụ thuộc tính giới tính có 2 giá trị: nam và nữ. Nam hay nữ không quan trọng, không thể so sánh.

Thuộc tính nhị phân được gọi là không cân xứng khi cả 2 trạng thái không có tính tương đồng, tức là vẫn còn trạng thái có tính quan trọng, điểm nhấn. Ví dụ thuộc tính xét nghiệm HIV là dương tính hay âm tính. Rõ ràng người ta sẽ thấy giá trị dương tính là nổi bật, là quan trọng, cần làm chú ý giá trị này hơn.

Đây là thuộc tính mà giá trị của nó có nghĩa trong một thứ tự hoặc một dãy phạm vi nào đó. Giả sử chúng ta có thuộc tính drink_sizecó các giá trị tương ứngsmall, medium, large. Đây là các giá trị có nghĩa, chúng có kích thước tăng dần theo thứ tự. Một ví dụ thuộc tính khác làgradevới các giá trị tương ứng là:A+, A, A-, B+, B, B-,chúng có lợi ích khi đánh giá chất lượng chứ không nói lên ý nghĩa về sự đo lường.

Thuộc tính này liên quan đến định lượng, số lượng được đo, nó thể là số nguyên hoặc số thực. Nó có 2 kiểu là:interval-scaled hoặc ratio-scaled

Đây là thuộc tính đo trên đơn vị kích thước, giá trị có thể có thứ tự và có thể là âm hoặc dương. Các giá trị trong thuộc tính này có thể được so sánh và đánh giá. Ví dụ thuộc tính nhiệt độ temperature có các giá trị tương ứng 20 độ C, 15 độ C. Ta dễ dàng so sánh được 20 độ C lớn hơn 5 đơn vị so với 15 độ C. Hoặc ta có thuộc tính Calendar chứa các giá trị 2002, 2010, từ đó ta biết được khoảng cách 2 năm này là 8 năm.

Giá trị của thuộc tính này có thể được tính toán xử lý như khoảng cách trung độ, trung bình, độ tập trung. Ví dụ các thuộc tính như đếm số năm kinh nghiệm của các nhân viên, từ đó lấy được số năm trung bình. Thuộc tính đếm số từ trong một tài liệu, từ đó có thể thống kê tần suất xuất hiện những từ phổ biến.

Thuộc tính rời rạc là giá trị của nó là số hữu hạn hoặc vô hạn có thể đếm được. Số hữn hạn như các thuộc tính smoker, hair_color, medical_test, drink_size. Số vô hạn có thể đếm được như: mã khách hàng, bản chất nó là số nguyên tăng dần nhưng ta có thể ánh xạ số lượng này tương ứng với một con số nguyên.

Ngược lại với thuộc tính rời rạc, nó là liên tục, thường gọi là numeric attribute.Nó thường biểu diễn số thực, ví dụ chiều cao của tòa nhà 1000.5m, 503.55m, 122.34m,.

Tôi đã giới thiệu một vài khái niệm cơ bản trong KTDL, hiểu nó sẽ giúp bạn đọc hiểu các bài phần sau. Bài tiếp theo tôi hướng dẫn các bạn các bài liên quan đến thống kê, thuật toán và công cụ phổ biến trong KTDL

Video liên quan

Chủ Đề