TIN KHOA HỌC

MỘT SỐ CÔNG CỤ XỬ LÝ SỐ LIỆU TRONG NGHIÊN CỨU KHOA HỌC

Trong nghiên cứu khoa học, quá trình phân tích dữ liệu được các nhà nghiên cứu sử dụng để gia giảm dữ liệu và diễn giải nó nhằm rút ra những hiểu biết. Quá trình phân tích dữ liệu giúp giảm một lượng lớn dữ liệu thành các phần nhỏ hơn, điều này làm nó có ý nghĩa hơn. Có 03 điều thiết yếu diễn ra trong quá trình phân tích dữ liệu, đầu tiên là tổ chức dữ liệu. Thứ hai, tóm tắt và phân loại dữ liệu nhằm góp phần đưa ra phương pháp sử dụng để giảm dữ liệu – Nó giúp tìm kiếm các mẫu và chủ đề trong dữ liệu để dễ dàng xác định và liên kết biến số. Thứ ba, cách cuối cùng là phân tích dữ liệu – các nhà nghiên cứu thực hiện theo cả cách từ trên xuống hoặc từ dưới lên nhằm triển khai nghiên cứu từ các biến số đó. Có thể nói rằng, phân tích và đánh giá dữ liệu là một quá trình thể hiện ứng dụng logic suy diễn và quy nạp vào nghiên cứu và phân tích dữ liệu.

Đối với biến số định lượng, việc xử lý dữ liệu bằng các phần mềm là bắt buộc nhằm đơn giản hóa quá trình xử lý dữ liệu và chạy mô hình để phục vụ diễn giải, đánh giá kết quả. Tuy nhiên, việc lựa chọn phần mềm nào cần phụ thuộc vào đặc điểm nguồn dữ liệu. Việc lựa chọn các thống kê cơ bản và loại test kiểm định thống kê dựa vào dạng thống kê (mô tả, tương quan, so sánh) và tính chất của biến số đó. Sau khi đã thu thập, xử lý và quản lý dữ liệu, chúng ta tiến hành phân tích dữ liệu. Có nhiều cách phân tích tùy theo thiết kế nghiên cứu, nhưng nói chung việc phân tích dữ liệu thống kê thường có ba dạng:  Phân tích thống kê để mô tả 1 biến số; Phân tích thống kê để tìm tương quan giữa hai biến số; Phân tích thống kê để so sánh giữa các biến số. Trong một thiết kế nghiên cứu có thể sử dụng 1, 2 hay cả 3 dạng phân tích trên. Nếu là biến phân loại ta phân tích tỷ lệ, biến liên tục phân phối chuẩn ta phân tích giá trị trung bình và trường hợp biến liên tục không phân phối chuẩn ta phân tích giá trị trung vị. 

Một số công cụ xử lý dữ liệu định lượng thực hiện bởi các phần mềm được trình bày như bên dưới đây:

1. Microsoft Excel

Microsoft Excel là một phần mềm trong bộ phần mềm Microsoft Office chuyên về xử lý dữ liệu bảng tính. Ra đời phiên bản đầu tiên từ năm 1987, trải qua hơn 30 năm hình thành và phát triển bởi công ty phần mềm danh tiếng nhất thế giới Microsoft, Excel đã trở thành phần mềm bảng tính phổ biến nhất thế giới. Hiện nay, Microsoft Excel đã có mặt trên nhiều nền tảng hệ điều hành như Windows, MacOS, Android, IOS, …

Các ứng dụng chính của Excel trong xử lý dữ liệu bao gồm:

  • Thống kê dữ liệu, trong đó có cả thống kê một cách trực quan dựa vào bảng, biểu đồ, dashboard…
  • Phân phối xác suất.
  • Tính toán tương quan và hồi quy tuyến tính.
  • Kiểm định các giả thiết.
  • Phân tích tình huống.

Ngoài ra, trong các phiên bản Excel mới có rất nhiều tính năng hỗ trợ làm việc hữu dụng như đồng bộ hóa, làm việc trên nhiều thiết bị cùng một lúc, dự đoán dữ liệu thống kê, công cụ dịch nhanh, giao diện đẹp… Tuy nhiên, Microsoft Excel cũng còn nhiều hạn chế như:

  • Tốn chi phí bản quyền để có thể sử dụng một cách hợp pháp.
  • Cần nhiều thời gian và công sức để sử dụng thành thục các tính năng, các hàm…
  • Với các máy tính có cấu hình từ trung bình trở xuống, tốn nhiều thời gian và tài nguyên trên máy để mở các file dữ liệu lớn.
  • Cách làm việc trên các file phụ thuộc vào thói quen của từng người sử dụng, nên khó làm việc chung.
  • Khả năng bảo mật kém.

2. Stata

Stata là phần mềm quản lý dữ liệu, xây dựng biểu đồ và đặc biệt là phân tích số liệu định lượng, do hãng StataCorp phát hành lần đầu năm 1985. Stata đặc biệt nổi bật nhờ các bộ câu lệnh có sẵn đồng thời lại sử dụng mã nguồn mở, cho phép người dùng tự soạn công thức và câu lệnh riêng phù hợp với nhu cầu sử dụng của mình.

Stata cho phép người dùng sử dụng nhiều loại dữ liệu, ví dụ như dữ liệu ASCII hoặc bảng tính Microsoft Excel. Dữ liệu được xử lý xong cũng có thể được xử lý bằng những phần mềm khác.

Một ưu điểm lớn của Stata chính là việc phần mềm này sử dụng mã nguồn mở. Điều này cho phép người dùng sử dụng những file “chuyên dụng” download từ internet. Một trong những cộng đồng hỗ trợ lớn nhất dành cho người dùng Stata là Statalist. Ở forum này, người dùng có thể upload cũng như download các file chuyên dụng phục vụ cho những mục đích riêng biệt.

Bên cạnh những ưu điểm trên, Stata cũng có một số nhược điểm. Thứ nhất, phần mềm này chỉ có thể xử lý một bộ dữ liệu trong một lần mở. Hơn nữa, phần mềm được cài đặt để lưu trữ toàn bộ bộ dữ liệu đang được xử lý, gây trở ngại cho quá trình vận hành nếu bộ dữ liệu đó có dung lượng quá lớn. Một nhược điểm nữa là những file “chuyên dụng” của Stata chưa được thẩm định tính chính xác, vì vậy người dùng cần suy nghĩ và kiểm tra kĩ trước khi sử dụng chúng.

Một số trang web bạn có thể tìm nguồn hướng dẫn cho công cụ này là:

3. SPSS

SPSS (viết tắt của Statistical Package for the Social Sciences) là một phần mềm máy tính phục vụ công tác phân tích thống kê. Hiện SPSS ngày càng được sử dụng nhiều hơn trong nghiên cứu thị trường và cả lĩnh vực quản trị. SPSS cung cấp một hệ thống quản lý dữ liệu và khả năng phân tích thống kê với giao diện đồ họa thân thiện.

Nội dung của SPSS rất phong phú và đa dạng, từ việc thiết kế các bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các phương pháp thống kê phân tích như:

  • So sánh các bảng mẫu bằng nhiều tiêu chuẩn tham số và phi tham số (Nonparametric Test, các mô hình phân tích phương sai theo dạng tuyến tính tổng quát (General Linear Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính (Nonlinear), các hồi quy Logistic.
  • Phân tích theo nhóm (Cluster Analysis).
  • Phân tích tách biệt (Discriminatory Analysis).
  • Chuyên sâu khác (Advanced Statistics).

Các chức năng chính của SPSS bao gồm:

  • Nhập và làm sạch dữ liệu.
  • Xử lý biến đổi và quản lý dữ liệu.
  • Tóm tắt, tổng hợp dữ liệu và trình bày dưới dạng biểu bảng, đồ thị bản đồ.
  • Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả.

SPSS là phần mềm xử lý thông tin sơ cấp – thông tin được thu thập trực tiếp từ đối tượng nghiên cứu. Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê). SPSS là một hệ thống phần mềm thống kê toàn diện được thiết kế để thực hiện tất cả các bước trong các phân tích thống kê từ những thống kê mô tả (liệt kê dữ liệu, lập đồ thị) đến thống kê suy luận (tương quan, hồi quy…).

SPSS được các nhà nghiên cứu sử dụng rộng rãi cho các nghiên cứu trong các lĩnh vực:

  • Tâm lý học, tội phạm học.
  • Điều tra xã hội học.
  • Nghiên cứu kinh doanh.
  • Nghiên cứu trong y sinh.

Một số trang web bạn có thể tìm nguồn hướng dẫn cho công cụ này là:

  • http://nghiencuudinhluong.com/
  • http://hotrospss.blogspot.com/
  • http://phantichspss.com/
  • http://phantichspss.blogspot.com/
  • https://www.youtube.com/channel/UC8Q-4C0Xbymg3I54Gd1ZQbQ/videos
  • https://www.youtube.com/channel/UCJPGPQB8RwDHUou21_T9zMA/videos 

Thông tin nơi dạy SPSS: http://khoahoctre.com.vn/chieu-sinh-hoc-vien-lop-phan-tich-du-lieu-spss-khoa-thang-5-2022/

4. R

R là phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ, là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau:

  • Tính toán đơn giản.
  • Toán học giải trí (recreational mathematics).
  • Tính toán ma trận (matrix).
  • Phân tích thống kê phức tạp.

Công cụ này có thể phát triển thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt.

* Ưu điểm:

  • Miễn phí, nguồn mở.
  • Khả năng phân tích biểu đồ tuyệt vời.
  • Gắn liền với giới học thuật: được sử dụng trong hầu hết những mô hình thống kê mới nhất.
  • Chạy được trên nhiều hệ điều hành.

* Hạn chế:

  • Dùng lệnh, không dùng menu giống Excel.
  • Nhiều thư viện/package: khó chọn.

Một số nguồn hướng dẫn cho công cụ này là:

  • Phân tích số liệu và biểu đồ bằng R – GS Nguyễn Văn Tuấn.
  • Ngôn ngữ lập trình R – Đỗ Thanh Nghị.
  • Kinh tế lượng ứng dụng với R – Nguyễn Chí Dũng.
  • Ứng dụng phần mềm R tại Việt Nam – Lê Văn Tuấn.

 5. Eviews

EViews (Econometric Views) là phần mềm chuyên về kinh tế lượng, nghiên cứu với dữ liệu chuỗi thời gian, dữ liệu chéo, dữ liệu mảng… EViews chạy trên Windows, được xây dựng bởi quantitative Micro Software (QMS), phiên bản 1.0 được phát hành vào tháng 3/1994.

Với khả năng linh hoạt trong thao tác, quản lý dữ liệu dễ dàng, kết quả hiển thị nhanh và dễ dàng hiểu được đã giúp Eviews đang trở thành một trong những phần mềm thống kê và phân tích dữ báo được các nhà nghiên cứu sử dụng phổ biến nhất.

Ngoài những chức năng dùng mô hình kinh tế lượng để phân tích phương trình hồi quy thì một số chức năng dùng cho phân tích dự báo nâng cao như:

  • Thống kê mô tả dữ liệu.
  • Phân tích sự tác động của các yếu tố kinh tế vĩ mô lên biến cần nghiên cứu.
  • Dự báo cho tương lai yếu tố cần nghiên cứu (ví dụ giá xăng dầu, dự báo nhu cầu năng lượng, dự báo giá vàng….).
  • Thực hiện xếp hạng tín dụng trong ngân hàng.
  • Tính toán giá trị rủi ro cho mã cổ phiếu dựa trên tỷ suất sinh lời.
  • Phân tích quan hệ tương quan giữa các yếu tố kinh tế vĩ mô.

Một số nguồn hướng dẫn cho công cụ này là:

  • Hướng dẫn thực hành Kinh tế lượng bằng phần mềm Eviews (Bùi Dương Hải).
  • Hướng dẫn sử dụng phần mềm Eviews (Nguyễn Trung Đông – Nguyễn Văn Phong).
  • Hướng dẫn thực hành kinh tế lượng bằng phần mềm Eviews (Trần Đức Luân).
  • Mô hình ARIMA (Nguyễn Ngọc Thiệp).

(Nguồn: Tổng hợp)

Share This