Hướng dẫn data warehouse trên sql server

- Dữ liệu cần được lưu trữ một cách tập trung, tránh việc sai sót trong quá trình sử dụng khi lưu riêng biệt, nhiều version với cùng một nội dung

- Liên kết các dữ liệu theo nhiều nhánh với nhau: Dữ liệu nhân công theo năm, dữ liệu lương theo năm, dữ liệu giới tính nhân viên theo năm, dữ liệu số giờ làm việc/ hiệu quả làm việc theo năm.. có thể đang quản lý ở các file riêng biệt, làm thế nào để có thể kết hợp được một file có thông tin như: năm, nhân công, giới tính, lương, hiệu quả làm việc….

- Có khả năng truy xuất dữ liệu một cách đơn giản, hợp lý và dễ dàng từ nhiều ứng dụng: Xử lý, phân tích, visualization dữ liệu như: Excel, Stata, R, Python, PowerBI…

2/ Yêu cầu đặt ra

Các yêu cầu đặt ra có thể được đặt các giá trị ưu tiên khác nhau tùy theo tình hình hiện tại của các tổ chức và định hướng của tổ chức đó. Trong bài viết này, thứ tự sắp xếp sẽ như sau:

- Đơn giản trong cài đặt và sử dụng

- Thời gian vận hành ngắn

- Đơn giản cho các máy client cùng sử dụng dữ liệu.

- Chi phí triển khai, chuyển giao rẻ

3/ Dự kiến triển khai.

Bài viết sẽ chọn SQL Server để làm hệ thống triển khai DWH đối với các doanh nghiệp vừa và nhỏ. Lý do chọn SQL Server thay vì Oracle, Netezza… vì một số nguyên nhân như sau:

- Bản miễn phí dùng ổn định, dễ sử dụng.

- Dễ dàng cài đặt, vận hành.

- Cú pháp đơn giản [Theo ý kiến chủ quan của bài viết].

àTriển khai DWH sẽ theo các bước chính như sau, đối với các tổ chức khác nhau có thể sẽ cần thêm một số các bước trung gian khác, tùy vào đặc điểm :

- Cài đặt cho máy chủ quản lý dữ liệu

- Thiết kế logical, physical, ETL Flow

- Kết nối từ các máy client tới máy chủ dữ liệu

- Vận hành và sử dụng dữ liệu

3.1 Thời gian dự kiến triển khai

3.2 Hạ tầng yêu cầu

- Một máy chủ có cấu hình đủ để khai thác cho dự án, tùy theo yêu cầu cụ thể của tổ chức để có thể xác định yêu cầu về cấu hình đối với máy trạm.

Nếu càng nhiều dữ liệu đầu vào, càng nhiều clients khai thác dữ liệu tại một thời điểm thì yêu cầu đối với máy trạm sẽ là nhiều hơn. Với quy mô dự kiến triển khai máy trạm cầm 8gb Ram- 16-32GB bộ nhớ để thực hiện các tác vụ lưu trữ, sử dụng cùng lúc nhiều clients requires để lấy dữ liệu.

- Máy trạm cần được fix địa chỉ IP nhằm việc đảm bảo source cho các máy client thực hiện kết nối được đồng nhất giữa các lần, không phải thay đổi khi máy trạm thay đổi đia chỉ IP. Thực hiện fix IP máy trạm như sau :

3.3 Các bước triển khai cụ thể

3.3.1 Cài đặt SQL Server, SSIS cho máy chủ lưu trữ dữ liệu

Trước tiên, SQL Server là một hệ quản trị cơ sở dữ liệu của Microsoft dựa trên Cơ sở dữ liệu quan hệ - có cấu trúc RDBMS. Có rất nhiều phần mềm có chức năng tương đương của các hang khác nhau như Oracle, IBM và đồng đời có những cơ sở dữ liệu phi cấu trúc… . Tuy nhiên để đảm bảo sự phù hợp về chi phí và tiện ích sử dụng, bài viết sẽ lựa chọn SQL Server để thực hiện triển khai

Có rất nhiều các phiên bản của Microsoft SQL Server được ra đời kể từ khi được tạo ra, tác giả hiện đang sử dụng phiên bản 2012. Ở phiên bản này SSIS- Công cụ thực hiện việc đưa dữ liệu từ các nguồn khác nhau vào trong DB Dwh đã được tích hợp sẵn và có thể sử dụng sau khi cài xong.

Vì bài viết hướng tới đối tượng người dùng không chuyên nên những kiến thức chuyên sâu sẽ được đính kèm ở các links trong bài thay vì giải thích cặn kẽ, tránh gây khó hiểu.

Việc thực hiện cài đặt SQL trên máy chủ tương đối đơn giản, Có rất nhiều bài hướng dẫn để thực hiện thao tác setup này.

Sau khi thực hiện xong bước cài đặt ban đầu chúng ta mở lên sẽ thấy như sau :

Như vậy việc cài đặt SQL Server đã thực hiện thành công. Công việc quan trọng là sử dụng nó để thực hiện công việc sẽ ở các bước sau đây.

3.2.2 Xác định nguồn dữ liệu của tổ chức

Nguồn dữ liệu đối với tổ chức như Trường đại học sẽ chủ yếu đến từ các file CSV, Excel, nguồn dữ liệu tư hệ thống nhân sự, quản lý chung…

3.3.3 Thiết kế Database Logic Model

- Phần này bài viết sẽ bổ sung sau khi có dữ liệu mẫu

3.3.4 Thiết kế mô hình vật lý

- Phần này bài viết sẽ bổ sung sau khi có dữ liệu mẫu

3.3.5 Thiết kế luồng chạy/ Update dữ liệu cho quá trình vận hành

- Phần này bài viết sẽ bổ sung sau khi có dữ liệu mẫu

3.3.6 Kết nối các máy client với máy chủ CSDL

Việc kết nối từ các máy cá nhân tới máy chủ CSDL là bước quan trọng để dự án triển khai thành công. Nếu việc lưu trữ mà không thể thuận tiện cho các cá nhân khác sử dụng, lấy dữ liệu thì dự án không giải quyết được bài toán lớn nhất- Thuận tiện cho tất cả các thành viên cùng sử dụng nguồn dữ liệu chung.

Đối với việc kết nối để lấy dữ liệu có hai trường hợp:

1/ Các máy clients trong cùng mạng LAN đối với máy chủ

Việc kết nối sẽ rất đơn giản. Các máy client chỉ cần mở SQL Server lên và thực hiện Link Server là có thể kết nối và sử dụng dữ liệu từ máy chủ DWH

Ta chọn Server Objects àLinked Servers àRight Click then Click on New Linked Server sẽ ra cửa sổ như sau:

Sau đó chỉ cần điền các thông tin về máy DWH việc kết nối sẽ thực hiện thành công. Sauk hi kết nối thành công người dùng có thể thoải mái lấy dữ liệu trên máy DWH từ máy của mình.

2/ Các máy clients không trong cùng mạng LAN với máy chủ

3.3.7 Kết nối các ứng dụng Visualization/ Analysis với SQL Server

Các ứng dụng Visualization, Analysis như Excel, Stata, SPSS có thể dễ dàng kết nối tới SQL server nhằm lấy dữ liệu, thực hiện các bước trong Data Processing.

Với việc kết nối và import dữ liệu này, ta có thể tạo các báo cáo realtime, nhiều function như chọn theo vùng, khu vực, năm, tháng… rất linh động khi sử dụng khai thác.

Ngoài ra còn rất nhiều các công cụ khác như : PowerBI, IBM Cognos….

4/ Tính khả dụng, chi phí

Các bước cài đặt chỉ phải thực hiện một lần, có thể sử dụng các tài nguyên sẵn có để thực hiện dự án nên tính khả dụng cao, có thể thực hiện được với nhiều quy mô, đối tượng.

Chủ Đề