drm/amdgpu: resolve mGPU RAS query instability upon receiving uncorrectable error, query every GPU node for ras errors Reviewed-by: Hawking Zhang <[email protected]> Signed-off-by: John Clements <[email protected]> Signed-off-by: Alex Deucher <[email protected]>

commit: b3dbd6d3ec495057db425a09516a922e1dacec33 [log] [tgz]
author: John Clements <[email protected]> Tue Apr 07 15:08:15 2020 +0800
committer: Alex Deucher <[email protected]> Thu Apr 09 10:43:15 2020 -0400
tree: f458b30ed7b51e03a0a13e8232d530788f50fbcc
parent: c419bdf5b820d5482cf9088c28952249c7fa67f2 [diff] [blame]
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c
index 8a78db6..b0aa4e1 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_ras.c

@@ -1438,12 +1438,22 @@ static void amdgpu_ras_do_recovery(struct work_struct *work)
 {
 	struct amdgpu_ras *ras =
 		container_of(work, struct amdgpu_ras, recovery_work);
+	struct amdgpu_device *remote_adev = NULL;
+	struct amdgpu_device *adev = ras->adev;
+	struct list_head device_list, *device_list_handle =  NULL;
+	struct amdgpu_hive_info *hive = amdgpu_get_xgmi_hive(adev, false);
 
-	/*
-	 * Query and print non zero error counter per IP block for
-	 * awareness before recovering GPU.
-	 */
-	amdgpu_ras_log_on_err_counter(ras->adev);
+	/* Build list of devices to query RAS related errors */
+	if  (hive && adev->gmc.xgmi.num_physical_nodes > 1) {
+		device_list_handle = &hive->device_list;
+	} else {
+		list_add_tail(&adev->gmc.xgmi.head, &device_list);
+		device_list_handle = &device_list;
+	}
+
+	list_for_each_entry(remote_adev, device_list_handle, gmc.xgmi.head) {
+		amdgpu_ras_log_on_err_counter(remote_adev);
+	}
 
 	if (amdgpu_device_should_recover_gpu(ras->adev))
 		amdgpu_device_gpu_recover(ras->adev, 0);
commit	b3dbd6d3ec495057db425a09516a922e1dacec33	[log] [tgz]
author	John Clements <[email protected]>	Tue Apr 07 15:08:15 2020 +0800
committer	Alex Deucher <[email protected]>	Thu Apr 09 10:43:15 2020 -0400
tree	f458b30ed7b51e03a0a13e8232d530788f50fbcc
parent	c419bdf5b820d5482cf9088c28952249c7fa67f2 [diff] [blame]