Mọi dữ liệu trong máy tính đều là dãy

1.1. Khái niệm thông tin và dữ liệu

  • Thông tin là những hiểu biết có thể có được về 1 thực thể nào đó
  • Dữ liệu là thông tin đưa vào máy tính để xử lý

1.2. Đơn vị đo lượng thông tin

  • Đơn vị cơ bản đo thông tin là bit [Binary Digital]
  • Bit là đơn vị nhỏ nhất được lưu trữ trong máy tính để biểu diễn hai trạng thái 0 và 1 [0: không có điện;  1: có điện] ta còn thường gọi là mã nhị phân

Hình 1. Biểu diến thông tin bằng dãy tám bit

  • Ngoài đơn vị bit, ta cũng thường dùng đơn vị đo lượng thông tin là Byte [đọc là bai]
  • 1 byte = 8 bit

Một số đơn vị bội của Byte

Kí hiệu

Đọc

Độ lớn

Byte Bai

8 bit

KB

Ki-lô-bai

1024 byte

MB

Mê-ga-bai

1024 KB

GB

Gi-ga-bai

1024 MB

TB

Tê-ra-bai

1024 GB

PB

Pê-ta-bai

1024 TB

Bảng 1. Một số đơn vị bội của Byte

1.3. Các dạng thông tin

Thông tin có 2 loại: số và phi số

  • Số: Số nguyên, số thực,… 
  • Phi số: Văn bản, hình ảnh, âm thành,…
    • Dạng văn bản: Tờ báo, cuốn sách, tấm bia,…
    • Dạng hình ảnh: Bức tranh vẽ, ảnh chụp, bản đồ, biển báo,…
    • Dạng âm thanh: Tiếng nói con người, tiếng sóng biển, tiếng đàn, tiếng chim hót,… 

1.4. Mã hóa thông tin trong máy tính

  • Để máy tính xử lí được, thông tin cần phải được biến đổi thành dãy bit [biểu diễn bằng các số 0, 1]. Cách biến đổi như thế được gọi là mã hoá thông tin
  • Ví dụ:

Hình 2. Mã hóa thông tin trong máy tính

  • Để mã hoá thông tin dạng văn bản ta dùng bộ mã ASCII để mã hoá các ký tự. Mã ASCII các ký tự đánh số từ: 0 đến 255
  • Bộ mã Unicode: có thể mã hóa 65536 =216 ký tự, có thể mã hóa tất cả các bảng chữ cái trên thế giới

1.5. Biểu diễn thông tin trong máy tính

  • Hệ đếm:
    • Hệ thập phân: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
    • Hệ nhị phân: 0, 1
    • Hệ cơ số mười sáu [hexa]: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Biểu diễn số trong các hệ đếm:

  • Hệ thập phân: Mọi số N có thể biểu diễn dưới dạng

\[N = a_{n} 10^{n} + a_{n-1} 10^{n-1} + …+ a_{1} 10^{1} + a_{0} 10^{0} + a_{-1} 10^{-1} +…+ a_{-m} 10^{-m}\]

\[0 \leq a_{i} \leq 9\]

  • Hệ nhị phân: Tương tự như trong hệ thập phân, mọi số N cũng có biểu diễn dạng

\[N = a_{n} 2^{n} + a_{n-1} 2^{n-1} + …+ a_{1} 2^{1} + a_{0} 2^{0} + a_{-1} 2^{-1} +…+ a_{-m} 2^{-m} \]

\[a_{i} = 0, 1 \]

  • Hệ hexa: Biểu diễn số trong hệ hexa cũng tương tự

\[N = a_{n} 16^{n} + a_{n-1} 16^{n-1} + …+ a_{1} 16^{1} + a_{0}16^{0} + a_{-1} 16 ^{-1} +…+ a_{-m} 16^{-m}\]

\[0 \leq a_{i} \leq15\]

Với quy ước:   A = 10,   B = 11,   C = 12, D = 13,   E = 14,   F = 15

Chuyển đổi giữa các hệ đếm:

Đổi số trong hệ cơ số 10 sang hệ cơ số 2 và hệ cơ số 16

Hình 3. Ví dụ minh họa đổi số trong hệ cơ số 10 sang hệ cơ số 2 và hệ cơ số 16

Biểu diễn số trong máy tính:

\[ 7_{[10]} = 111_{[2]}\]

Hình 4. Ví dụ minh họa biểu diễn số nguyên

  • Trong đó: 
    • Phần nhỏ nhất của bộ nhớ lưu trữ số 0 hoặc 1: 1 bit
    • Một byte có 8 bit, bit cao nhất thể hiện dấu [bit dấu]
    • Có thể dùng 1 byte, 2 byte, 4 byte… để biểu diễn số nguyên
  • Biểu diễn số thực: 
    • Biểu diễn số thực dưới dạng dấu phẩy động:
      • Ví dụ: 13456,25 = 0.1345625 x 105
      • Dạng tổng quát: ±M x 10±K
      • Trong đó: 
        • M: Là phần định trị [\[0,1\leq M < 1\]]
        • K: Là phần bậc [\[K \leq 0\]]
    • Biểu diễn số thực trong một số máy tính:
      • Ví dụ:     0,007 = 0.7 x 10-2

Hình 5. Ví dụ minh họa biểu diễn số thực

 b. Thông tin loại phi số

Biểu diễn văn bản:

  • Mã hoá thông tin dạng văn bản thông qua việc mã hóa từng kí tự và thường sử dụng:
    • Bộ mã ASCII: Dùng 8 bit để mã hoá kí tự, mã hoá được 256 = 28 kí tự
    • Bộ mã Unicode: Dùng 16 bit để mã hóa kí tự, mã hoá được 65536 = 216 kí tự
  • Trong bảng mã ASCII mỗi kí tự được biểu diễn bằng 1 byte

Các dạng khác: Hình ảnh, âm thanh cũng phải mã hoá thành các dãy bit

*Nguyên lí mã hóa nhị phân:

Thông tin có nhiều dạng khác nhau như số, văn bản, hình ảnh, âm thanh,… Khi đưa vào máy tính, chúng đều biến đổi thành dạng chung - dãy bit. Dãy bit đó là mã nhị phân của thông tin mà nó biểu diễn. 

Dữ liệu là gì? big data là gì? các loại dữ liệu và cách sử dụng. Cách biểu diễn thông tin trong máy tính

Kể từ khi phát minh ra máy tính, con người đã sử dụng thuật ngữ dữ liệu để chỉ thông tin máy tính, và thông tin này được truyền đi hoặc lưu trữ. Nhưng đó không phải là định nghĩa dữ liệu duy nhất; cũng tồn tại các loại dữ liệu khác. Vậy, dữ liệu là gì? Dữ liệu có thể là văn bản hoặc số được viết trên giấy tờ, hoặc nó có thể là byte và bit bên trong bộ nhớ của các thiết bị điện tử, hoặc nó có thể là các dữ kiện được lưu trữ bên trong tâm trí của một người.

Dữ liệu [data] là chuỗi bất kỳ của một hoặc nhiều ký hiệu có ý nghĩa thông qua việc giải thích một hành động cụ thể nào đó. Dữ liệu cần phải được thông dịch để trở thành thông tin. Để dữ liệu thành thông tin, cần xem xét một số nhân tố bao gồm người tạo ra dữ liệu và thông tin được mong muốn từ dữ liệu đó. [Nguồn Wikipedia]

Bây giờ, nếu chúng ta nói về dữ liệu chủ yếu trong lĩnh vực khoa học, thì câu trả lời cho “dữ liệu là gì” sẽ là dữ liệu là các loại thông tin khác nhau thường được định dạng theo một cách cụ thể.

Dữ liệu máy tính là gì?

Dữ liệu máy tính là thông tin xử lý hoặc lưu trữ bởi một máy tính. Thông tin này có thể ở dạng tài liệu văn bản, hình ảnh, đoạn âm thanh, chương trình phần mềm hoặc các dạng dữ liệu khác. … Điều này cho phép truyền dữ liệu từ máy tính này sang máy tính khác bằng kết nối mạng hoặc các thiết bị đa phương tiện khác nhau.

Các kiểu dữ liệu phổ biến bao gồm:

  • Số nguyên
  • Số dấu phẩy động
  • Ký tự
  • Chuỗi
  • Boolean
  • Âm thanh
  • Hình ảnh

Để đạt được hiệu quả cao khi xử lý, lưu trữ và truyền thông tin điều cần thiết là phải tìm cách tổ chức và biểu diễn [thể hiện] thông tin trong MTĐT một cách hợp lý. Như đã biết, dữ liệu là hình thức biểu diễn thông tin. Vậy đối với máy tính dữ liệu chính là các thông tin đã được mã hoá dưới dạng số nhị phân. Dữ liệu – thông tin được máy tính xử lý có thể có các dạng khác nhau.

Máy tính có thể tính toán trên các số, có thể xử lý thông tin chữ hay thông tin logic, có thể xử lý những thông tin đa phương tiện [multimedia] như âm thanh và hình ảnh. Máy tính còn có thể xử lý tri thức [knowledge].

Thông tin về một đối tượng có thể rất phức tạp và có thể được thể hiện bằng nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin về một cán bộ có thể có tên, nơi sinh là văn bản; ngày sinh, lương là số; ảnh chân dung là ảnh…

Để lưu trữ trong MTĐT cả dữ liệu số, phi số và tri thức đều được mã hóa bằng các mã nhị phân. Theo nghĩa đó mọi dữ liệu dù là bản chất có khác nhau nhưng đều được số hoá.

Dữ liệu kiểu số

Biểu diễn số dấu phảy tĩnh

Với kiểu biểu diễn số dấu phảy tĩnh, người ta chọn một độ rộng n bít nào đó cho một số. Trong n bit này, bít đầu tiên dùng để mã dấu của số theo cách bít 0 dùng để mã dấu dương, bít 1 dùng để mã dấu âm. Trong n-1 bít còn lại, lấy một số bít cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 bít sau nếu ta dùng 7 bít cho phần nguyên và 8 bít cho phần lẻ và một bít cho dấu thì biểu diễn sau thể hiện số 1100101,11011011

Biểu diễn số dấu phảy tĩnh fixed point number

Do với mỗi kiểu biểu diễn đã chọn, vị trí dấu phảy mang tính quy ước nằm ở một vị trí cố định nên kiểu biểu diễn này gọi là kiểu dấu phảy tĩnh.

Trên thực tế đa số các môi trường xử lý quy ước dấu phảy đứng sau ô cuối cùng có nghĩa là chỉ áp dụng chế độ dấu phảy tĩnh cho số nguyên. Độ dài của biểu diễn tuỳ thuộc vào nhu cầu. Các số nguyên thường dùng chủ yếu có các loại độ dài 8 bit, 16 bít và 32 bit.

Mã số nguyên trình bày trên đây được gọi là mã thuận. Thực ra để tiện cho việc thực hiện các phép tính đại số, người ta còn sử dụng nhiều loại mã số nguyên khác như mã ngược, mã bù…mà ta sẽ không trình bày ở đây.

Biểu diễn số dấu phảy động

Biểu diễn số dấu phảy động – floating point number

Biểu diễn dấu phảy tĩnh không đáp ứng được một số nhu cầu, đặc biệt trong tính toán gần đúng. Đối với các bài toán tính gần đúng người ta có thể chấp nhận những sai số là lớn về tuyệt đối nhưng tỉ số của sai số trên giá trị thực của số là nhỏ [sai số tương đối].

Mặt khác cách biểu diễn số trong dấu phảy tĩnh không đủ mềm dẻo để thể hiện các số quá lớn hoặc quá bé. Đã từ lâu, khi có nhu cầu tính toán gần đúng trên máy tính người ta thường dùng một loại biểu diễn số khác là biểu dấu phảy động.

Dữ liệu phi số

Mã hoá chữ và dữ liệu kiểu văn bản.

Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu theo nghĩa rộng, không chỉ là các chữ cái la tinh mà kể cả chữ số, các dấu chính tả, các dấu toán học, các kí hiệu để trình bày. Mặt khác không phải dân tộc nào cũng dùng chữ latinh nên đối với một số dân tộc có thể có những chữ riêng. Ví dụ bộ chữ Trung hoa có đến hơn 60 nghìn chữ.

Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa chữ cái thông thường [letter] với “chữ” dùng trong văn bản nói chung kể cả văn bản máy tính, từ đây trở đi chúng ta sẽ dùng thuật ngữ ký tự [character] với ý nghĩa là một ký hiệu dùng trong văn bản.

Nếu dùng một vùng nhớ k bit để mã hoá một chữ thì chỉ có thể biểu diễn được tối đa là 2k kí tự vì chỉ có thể tạo được đúng 2K các mã nhị phân khác nhau. Điều này giải thích tại sao người Mỹ chỉ cần 7 bit để mã cho các chữ của họ; để có thêm các mặt chữ châu Âu, chữ Hy lạp và một số ký hiệu trình bày cũng chỉ cần 8 bít; trong khi đó người Trung hoa hay người Nhật phải dùng các mã 16 bít.

Các văn bản được hình dung như một chuỗi kí tự. Nội dung một cuốn sách, một bài thơ được đưa vào máy tính là những ví dụ cụ thể về thông tin văn bản. Hầu hết các máy tính và môi trường lập trình hiện nay đều sử dụng một byte để mã hoá một chữ.

Các dữ liệu logic

Dữ liệu loại logic chỉ thể hiện một trong hai trạng thái đối lập là đúng/sai, hoặc có/không.

Điều này ta thường thấy trong rất nhiều loại hồ sơ. Ví dụ trong lý lịch cá nhân: họ tên, quê quán là dữ liệu kiểu văn bản, ngày tháng năm sinh, lương có thể thể hiện bằng số, còn các thông tin như có là đoàn viên không, có gia đình hay không là các thông tin có kiểu logic.

Các thông tin kiểu logic chịu tác động của các phép toán đặc trưng như các phép toán so sánh, các phép toán nhân logic “và”, cộng logic “hoặc” hay phủ định logic “không” ví dụ trong một hệ thống quản lý sinh viên người ta có thể phải đặt các câu hỏi như: In ra danh sách các sinh viên [mà] tuổi < 20 hoặc tuổi

Chủ Đề