Проблемы AMD ROCm (HSA_STATUS_ERROR_OUT_OF_RESOURCES и более)

Я просто пытался установить AMD ROCm, чтобы я мог использовать PyTorch (GPU) для своего ПК. У меня возникли проблемы после того, как я его установил. Я смотрел это руководство по установке AMD ROCm на YouTube: https://www.youtube.com/watch?v=efKjfBkjPlM и использовал эту страницу документации от AMD: https: // rocmdocs.amd.com/en/latest/Installation_Guide/Installation-Guide.html#ubuntu.

My Спецификации компьютера:

ОС: Ubuntu 20.04 LTS x86_64 Ядро: 5.4.0-40-универсальный Оболочка: bash 5.0.16 Процессор: AMD A10-9700 @ 3,5 ГГц Графический процессор: AMD ATI Radeon R5 M230 / R7 M260DX / Radeon 520 Оперативная память для мобильных ПК: 8 ГБ DDR4

Ошибки, с которыми я сталкивался:

Всякий раз, когда я вводил в терминал 'rocminfo', я сталкивался с этой ошибкой:

Unable to open /dev/kfd read-write: Bad address
someone is member of someone group
hsa api call failure at: /src/rocminfo/rocminfo.cc:1142 Call returned HSA_STATUS_ERROR_OUT_OF_RESOURCES: The runtime failed to allocate the necessary resources. This error may also occur when the core runtime library needs to spawn threads or create internal OS-specific events.

Я не Я знаю, была ли это ошибка, но просто для справки, когда я набрал 'clinfo', я получил:

Number of platforms                               1
  Platform Name                                   AMD Accelerated Parallel Processing
  Platform Vendor                                 Advanced Micro Devices, Inc.
  Platform Version                                OpenCL 2.0 AMD-APP (3137.0)
  Platform Profile                                FULL_PROFILE
  Platform Extensions                             cl_khr_icd cl_amd_event_callback 
  Platform Extensions function suffix             AMD
  Platform Name                                   AMD Accelerated Parallel Processing
Number of devices                                 0
NULL platform behavior
  clGetPlatformInfo(NULL, CL_PLATFORM_NAME, ...)  No platform
  clGetDeviceIDs(NULL, CL_DEVICE_TYPE_ALL, ...)   No platform
  clCreateContext(NULL, ...) [default]            No platform
  clCreateContext(NULL, ...) [other]              No platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_DEFAULT)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_CPU)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_GPU)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_ACCELERATOR)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_CUSTOM)  No devices found in platform
  clCreateContextFromType(NULL, CL_DEVICE_TYPE_ALL)  No devices found in platform

Было бы очень полезно, если бы кто-нибудь мог помочь, даже если это что-то простое. Спасибо.

0
задан 14 July 2020 в 20:06

1 ответ

Как правило, для того, чтобы вы работали с rocm, необходимо выполнить две вещи.

Во-первых, ваш ЦП / материнская плата должны поддерживать PCIE Atomics. Неясно, поддерживает ли его Бристольский хребет, но полоса PCIE должна быть прямой (не переведена).

Наилучшее предположение, скорее всего, вы не сможете заставить это работать с вашим оборудованием.

Есть и другие. довольно много производителей, которые не реализуют должным образом таблицы BIOS. ASUS является одним из тех производителей, но есть и другие. (т. е. протестировано на материнской плате Ryzen 5 Raven Ridge CPU + Prime B450-Plus выдает точно такую ​​же ошибку, и до последнего доступного обновления прошивки она становится доступной, т. е. если вы не обновляете AGESA).

Вы можете найти больше информации Вот. В частности, часть о поддержке Бристольского хребта и выборе OEM / ODM. https://github.com/RadeonOpenCompute/ROCm#supported-cpus

0
ответ дан 30 July 2020 в 22:08

Другие вопросы по тегам:

Похожие вопросы: