Scatter Diagram – Biểu đồ phân tán với sự trực quan cần biết


Scatter diagram được biết đến với nhiều tên gọi khác nhau trong tiếng Anh như scatterplot, scatter graph, scatter chart, scattergram, X-Y graph. Tạm dịch là biểu đồ phân tán, đồ thị X-Y hay biểu đồ tương quan. Đây là một trong 7 công cụ chất lượng huyền thoại (7 QC tools). Trong bài này, tôi sẽ dùng thống nhất bằng tên gọi là biểu đồ phân tán.

Với những bạn nào mới thấy qua biểu đồ này, có lẽ nó sẽ khiến các bạn hơi hoang mang một tí bởi hình ảnh chi chít điểm. Nhìn là lạ vậy thôi, nhưng nó không hề khó hiểu, khó vẽ hay khó dùng so với những biểu đồ dạng đường, dạng cột quen thuộc mà chúng ta thường gặp đâu. Bài viết này sẽ giúp bạn làm quen với biểu đồ phân tán, cũng như cách tạo và sử dụng loại biểu đồ này một cách rất trực quan. (Có kèm file làm mẫu, có thể tải về sử dụng).

1. Biểu đồ phân tán là gì?

Biểu đồ phân tán là loại biểu đồ được dựng bởi các điểm theo tọa độ toán học để xác định mối tương quan giữa hai biến. Hai bộ dữ liệu được vẽ trên đồ thị, với trục tung Y được sử dụng cho biến được dự đoán (còn gọi là biến phụ thuộc) và trục hoành X được sử dụng cho biến dùng để đưa ra dự đoán (còn gọi là biến độc lập). Sau khi xác định được mối tương quan này, bạn có thể dự đoán kết quả của biến phụ thuộc dựa trên số đo của biến độc lập.

scatter diagram - Biểu đồ phân tán

2. Khi nào sử dụng biểu đồ phân tán?

Một cách cô đọng và đơn giản nhất đó là khi bạn có cặp 2 dữ liệu (biến) và bạn muốn xác định xem hai biến có liên quan với nhau hay không? Có liên quan thì liên quan nhiều hay ít và như thế nào?

Ví dụ: Trong một cuộc nghiên cứu về các yếu tố (nguyên nhân) ảnh hưởng đến tốc độ làm đông được 1 lít nước đá trong ngăn đông tủ lạnh. Sau khi Brainstorming ra được một danh sách các yếu tố (nguyên nhân) tiềm năng. Chẳng hạn nhiệt độ làm đông, hình dạng khối nước khi làm đông, diện tích tiếp xúc để làm đông, kích thước tủ lạnh, v..v… Khi này, biểu đồ phân tán sẽ giúp bạn dễ dàng thấy được nhiệt độ có ảnh hưởng đến tốc độ làm đông, kích thước tủ lạnh thì không ảnh hưởng gì cả, v..v…

Scatter diagram - Biểu đồ phân tán

3. Kết luận mối tương quan trong biểu đồ phần tán.

Có nhiều cách phân chia sự tương quan giữa 2 biến số. Nhưng chung quy và tóm gọn nhất thì chúng ta có thể phân làm 2 loại chính đó là CÓ tương quan và KHÔNG có tương quan. Trong loại CÓ tương quan thì lại chia thành 2 nhánh là tương quan thuận và tương quan nghịch. Dựa vào mức độ của sự tương quan, có tương quan mạnh, tương quan yếu, v..v… Cụ thể sẽ được làm rõ trong phần tiếp theo.

scatter diagram - Biểu đồ phân tán

Về cách tính độ tương quan thì có hệ số tương quan R. R có giá trị chạy từ -1 đến +1. Trong đó, ±1 biểu thị hai biến số có mối tương quan tuyệt đối có thể và 0 cho thấy hai biến số không có liên quan gì với nhau.

Tuy nhiên, như đã nói ở trên, bài viết này sẽ tập trung vào việc tìm hiểu cách sử dụng biểu đồ phân tán một cách trực quan nhất. Cho nên, tôi không đi sâu vào công thức tính R tương quan ở đây. Thay vào đó, chúng ta hãy cùng tìm hiểu về các cách kết luận mối tương quan của biểu đồ phân tán thông qua hình dạng, bờ dốc và độ tập trung điểm của biểu đồ như dưới đây. Và cách xác định có tương quan hay không khá đơn giản trong mục 4 thông qua một ví dụ minh họa.

3.1. Dựa theo bờ dốc

Là xem xét hướng thay đổi của giá trị Y theo sự tăng dần của giá trị X. Nếu Y tăng khi X tăng thì 2 biến số có mối tương quan thuận (R > 0). Hay còn gọi là dốc dương. Ngược lại, Nếu Y giảm khi X tăng thì 2 biến số có mối tương quan nghịch (R < 0). Hay còn gọi là dốc âm.

scatter diagram - Biểu đồ phân tán

3.2. Dựa theo độ tập trung điểm

Là xem xét mức độ dàn trải của các điểm phân tán trong biểu đồ:

  • Nếu các điểm tập trung gần nhau và có thể vẽ được một đường thẳng đi qua các điểm này. Có thể nói mối tương quan là rất mạnh (R gần bằng ±1). Khi này, kiểm soát được X là bạn hoàn toàn có thể kiểm soát được Y.
  • Nếu các điểm phân tán rộng, mối quan hệ sẽ là yếu. Có nghĩa là sự thay đổi của X sẽ có đẫn đến sự thay đổi của Y. Tuy nhiên, Y còn phụ thuộc vào các yếu tố / nguyên nhân khác nữa.
  • Trường hợp các điểm trong biểu đồ dàn trải một cách ngẫu nhiên không theo quy luật nào cả. Nghĩa là 2 biến số này không có liên quan gì với nhau (R = 0).

scatter diagram - Biểu đồ phân tán

4. Cách phân tích biểu đồ trực quan của biểu đồ phân tán.

4.1. Cách thực hiện

Trong một số trường hợp, do nhiều nguyên nhân, thoạt nhìn ta tưởng hai biến số dường như có mối tương quan với nhau. Nhưng thực ra chúng không có mối quan hệ gì với nhau và ngược lại. Hoặc nhìn vào độ tập trung điểm bạn khó mà chắc được là có sự tương quan hay không? Vậy nên, phần này sẽ chia sẻ về cách phân tích 1 biểu đồ phân tán đơn giản mà không thông qua việc tính toán hệ số tương quan. Phương pháp này phù hợp và thuận tiện cho trường hợp bộ dữ liệu của bạn không quá nhiều. Cách làm như sau:

B1: Thu thập dữ liệu của cặp biến số mà bạn muốn xác định là có mối tương quan hay không

B2: Vẽ biểu đồ với biến độc lập trên trục hoành X và biến phụ thuộc trên trục tung Y

B3: Nhìn vào mô hình các điểm để xem mối quan hệ có rõ ràng không. Nếu các điểm phân tán trên biểu đồ tạo thành một đường rõ ràng, bạn có thể dừng lại vì các biến có tương quan với nhau. Nếu không, thực hiện tiếp các bước sau đây:

B4: Chia vùng cho các điểm trên biểu đồ thành bốn góc phần tư. Nếu có x điểm trên biểu đồ:

  • Đếm x / 2 điểm từ trên xuống dưới và vẽ một đường ngang
  • Đếm x / 2 điểm từ trái sang phải và vẽ một đường thẳng đứng
  • Nếu số điểm x là số lẻ, vẽ đường ngang/ thẳng qua điểm giữa

B5: Đếm số điểm trong mỗi góc phần tư. Không tính điểm mà đường kẻ cắt qua trong trường hợp số điểm là số lẻ nói trên

B6: Xem xét các góc phần tư đối diện theo hướng chéo. Tìm tổng nhỏ hơn và tổng số điểm trong tất cả các góc phần tư

  • A = điểm ở góc phần tư phía trên bên trái + điểm ở góc phần tư phía dưới bên phải
  • B = điểm ở góc phần tư phía trên bên phải + điểm ở góc phần tư phía dưới bên trái
  • Q = giá trị nhỏ hơn trong kết quả của A và B
  • N = A + B

B7: Tra cứu giới hạn cho N trên bảng kiểm tra xu hướng

Vietquality - scatter diagram - biểu đồ phân tán

  • Nếu Q nhỏ hơn giới hạn, hai biến có mối tương quan
  • Nếu Q lớn hơn hoặc bằng giới hạn, mô hình xảy ra do cơ hội ngẫu nhiên. Tức là không có tương quan

4.2. Ví Dụ

Một nhóm sản xuất nghi ngờ mối quan hệ giữa phần trăm độ tinh khiết của sản phẩm và lượng sắt (tính bằng phần triệu hoặc ppm). Độ tinh khiết và lượng sắt được vẽ với nhau như hình dưới đây:

scatter diagram - Biểu đồ phân tán

Có 24 điểm dữ liệu. Các đường trung tuyến được vẽ sao cho 12 điểm rơi ở mỗi bên cho cả phần trăm độ tinh khiết và ppm sắt. Để kiểm tra mối quan hệ, họ tính:

  • A = điểm ở góc phần tư phía trên bên trái + điểm ở góc phần tư phía dưới bên phải = 9 + 9 = 18
  • B = điểm ở góc phần tư phía trên bên phải + điểm ở góc phần tư phía dưới bên trái = 3 + 3 = 6
  • Q = giá trị nhỏ hơn giữa A và B = 6
  • N = A + B = 18 + 6 = 24

Sau đó, họ tìm kiếm giới hạn cho N trên bảng kiểm tra xu hướng. Với N = 24, giới hạn là 6. Q bằng với giới hạn (đều bằng 6). Do đó, mô hình có thể đã xảy ra từ cơ hội ngẫu nhiên. Và không có mối quan hệ nào được chứng minh.

Trên đây là một số chia sẻ về biểu đồ phân tán cũng như cách xác định mối tương quan thông qua độ tập trung điểm trên biểu đồ (tham khảo: ASQ). Mong rằng sẽ hữu ích cho bạn đọc. Ngoài ra, bạn đọc có thể tải file mẫu   TẠI ĐÂY   để tham khảo và sử dụng.

 

Ai Le

 

 

2 thoughts on “Scatter Diagram – Biểu đồ phân tán với sự trực quan cần biết

Leave a Reply