cuda error an illegal memory access was encountered что значит

[BUG] Illegal memory access was encountered #434

Comments

TrickyT1964 commented Apr 22, 2021

Fairly consistent crashing, will crash persistently for hours before being perfectly fine again

Temps stable @ 64C
running 1080ti rig settings are on efficient was getting 41MH/s each before crashing constantly for hours with message

[[2021-04-22 17:59:25.096961] [thread=0x00002908] [warning]]

[[2021-04-22 17:59:25.099981] [thread=0x00002c08] [warning]]

Version: STABLE v0.5.1.3
NVIDIA Drivers: 466.11

The text was updated successfully, but these errors were encountered:

4runnerwanted commented Apr 22, 2021 •

I’m having this exact issue. Code is identical for my two 1070ti’s. The second card is still crushing it at 31.5 MH/s and now the first card can barely hold 27 MH/s.

This error comes up and crashes excavator within 5 minutes of applying the same OC that my second card is running smooth at.

nicehashdev commented Apr 25, 2021

These errors signalize too high OC. Note that every card cannot be fully compatible with every optimization profile. You need to be lucky to have a good chip. To maximize potential of your device, you have to use manual OC using OCTune. Check Wiki, there are plenty information and instructions on how to use OCTune.

Источник

«CUDA failure 77: an illegal memory access was encountered» over a simple dataset #2663

Comments

vermorel commented Nov 23, 2017

We are frequently facing CUDA failures with CNTK.

In order to make the problem easily reproducible, we have compile both a BrainScript and a small binary dataset, attached to this ticket.

Here is the full output:

This is a blocking problem for us. Any help would be highly appreciated.

The text was updated successfully, but these errors were encountered:

ke1337 commented Nov 24, 2017

You need to set environment variable CUDA_LAUNCH_BLOCKING=1 to get the precise cuda error location. Here’s the callstack with that:

The code path seems to be in gradient optimization in PlusNode’s BackProp, when automatically reducing an input of 32×1000 to 32×1. I tried to disable gradient optimization by setting optimizeGradientAccumulation=false and the problem seems went away. I’ll dig a bit more on this.

vermorel commented Nov 24, 2017

vermorel commented Nov 29, 2017

The option optimizeGradientAccumulation=false is actually not solving all the problems. We are now facing again crashes. Attached, a small BrainScript script and a binary file to reproduce the failure.

When using CPU, we observe the failure:

Then, with GPU, the error message is:

Any help would be highly appreciated. Thanks!

Источник

RuntimeError: CUDA error: an illegal memory access was encountered #38618

Comments

GlassyWing commented May 17, 2020 •

Recently, I plan to implement Kalman filter with pytorch. I tried to obtain the batch processing capability through torch. However, when I call «torch.cholesky (covariance)» and run it on the GPU, I randomly encounter an incomprehensible error. » CUDA error: an illegal memory access was encountered «, but it does not happen when it is processed through the loop. At the same time, what is even more surprising is that this will not have any problems on window10.

Читайте также: cpi что это такое мышь

To Reproduce

If i combine the covariances like this, the error will happen randomly.

What kf.gating_distance does is call torch.cholesky(covariance) :

The complete code is here kalman_filter.py

Expected behavior

There should be no problem。

Environment

The runtime is from docker image: pytorch/pytorch:1.5-cuda10.1-cudnn7-runtime

Collecting environment information.
PyTorch version: 1.5.0
Is debug build: No
CUDA used to build PyTorch: 10.1

OS: Ubuntu 18.04.4 LTS
GCC version: Could not collect
CMake version: Could not collect

Python version: 3.7
Is CUDA available: Yes
CUDA runtime version: Could not collect
GPU models and configuration: GPU 0: TITAN Xp
Nvidia driver version: 418.56
cuDNN version: Could not collect

Versions of relevant libraries:
[pip] numpy==1.18.1
[pip] torch==1.5.0
[pip] torchvision==0.6.0a0+82fd1c8
[conda] blas 1.0 mkl
[conda] cudatoolkit 10.1.243 h6bb024c_0
[conda] mkl 2020.0 166
[conda] mkl-service 2.3.0 py37he904b0f_0
[conda] mkl_fft 1.0.15 py37ha843d7b_0
[conda] mkl_random 1.1.0 py37hd6b4f25_0
[conda] numpy 1.18.1 py37h4f9e942_0
[conda] numpy-base 1.18.1 py37hde5b4d6_1
[conda] pytorch 1.5.0 py3.7_cuda10.1.243_cudnn7.6.3_0 pytorch
[conda] torchvision 0.6.0 py37_cu101 pytorch

The text was updated successfully, but these errors were encountered:

Источник

Как автоматически перезапустить майнер, если он перестал работать в Windows?

Многие разгоняют видеокарты, чтобы максимально увеличить потенциал майнинга. В большинстве случаев все проходит хорошо, но иногда процесс майнинга заканчивается ошибкой.

Если это произойдет, когда мы находимся рядом с фермой и сразу это увидим, то мы можем сразу же перезапустить майнер и сэкономить драгоценное время. Но часто ошибки возникают в тот момент, когда мы не отслеживаем процесс майнинга, что приводит к потере денег.

Такая ситуация может повториться снова, поэтому убедитесь, что Вы автоматизировали процесс перезапуска майнера, если он перестает работать. Прежде чем мы расскажем, как это делается, давайте рассмотрим некоторые распространенные причины прекращения работы майнера.

Сколько раз Вы сталкивались с этой ошибкой в Windows при добыче ваших любимых монет: «GPU0 error: unspecified launch failure» или «an illegal memory access was encountered. CUDA error in func ‘search’ at line» (был обнаружен недопустимый доступ к памяти. Ошибка CUDA в функции «поиск» в строке).

Эта ошибка может произойти с любым майнером: CCMiner, CGminer, XMRStak, Claymore, EWBF Cuda и Ethminer. Так что вызывает эту ошибку?

Когда Вы запускаете майнер, и вдруг он выходит из строя, значит, что-то не так с конфигурацией, поэтому следуйте приведенным ниже рекомендациям для устранения проблемы.

Программные настройки

Разгон GPU нестабилен: если Вы добываете новый алгоритм в первый раз, всегда следите за тем, чтобы начать майнинг со стандартных установок clock (как памяти, так и ядра). Разгоняйте карты только в том случае, если они работают стабильно при стандартных настройках. Если ошибка сохраняется даже при стандартных настройках, попробуйте снизить интенсивность майнера.

Понизьте интенсивность: если Вы указали настройку интенсивности в файле конфигурации майнера, следите за этим, поскольку это может быть причиной сбоя майнера. Попробуйте уменьшить интенсивность или вернуть настройки к стандартным параметрам. Уровень интенсивности будет зависеть от алгоритма и программного обеспечения для майнинга, поэтому лучше удалите его и попробуйте запустить с настройками по умолчанию.

Проблема с драйвером: это еще одна причина сбоя или остановки майнера. Всегда проверяйте, установлены ли на вашей ферме последние версии драйверов, особенно когда Вы пробуете новый майнер или алгоритм.

Попробуйте другой майнер: существует множество самых разных программ для майнинга. Алгоритм, который Вы добываете и который вызывает проблемы, может быть хорошо оптимизирован на другом майнере. Так что попробуйте другую программу или даже предыдущую версию.

На нашем сайте представлен огромный список майнеров с подробной инструкцией.

Проблемы с оборудованием

Если вышеупомянутое не решило вашу проблему, проверьте ваше оборудование.

Блок питания: есть некоторые алгоритмы, которые не так энергоэффективны, так как они могут быть нестабильны. Когда Вы добываете такие алгоритмы, убедитесь, что на вашем блоке питания есть запас мощности. Убедитесь, что ваш блок питания может справиться с нагрузкой.

Неисправные райзеры PCI-e. Последнее, из-за чего майнер может вылетать – это наличие неисправных райзеров.

Если та же самая ферма может хорошо добывать другие монеты / алгоритмы, то проблема определенно не в райзерах. Однако, если и на других алгоритмах или монетах, которые Вы уже добывали, майнер также вылетает, то проблема может быть в райзерах. Попробуйте отключать видеокарты одну за другой из майнера, чтобы увидеть, какая из них вызывает ошибку.

Как автоматически перезапустить майнер, когда он перестает работать?

Следуя приведенным выше рекомендациям, Вы можете устранить неполадки и проблему. Однако в какой-то момент Ваш майнер перестанет работать, или любая из ваших видеокарт выйдет из строя с ошибкой. Поэтому убедитесь, что ваш майнер может автоматически перезапустить процесс майнинга.

Существует много инструментов для мониторинга вашей деятельности в майнинге, которые также автоматически перезапускаются при необходимости.

Но многие пользователи либо не хотят все это настраивать, либо не знают о существовании автоматического перезапуска. Большинство майнеров просто настраивает пакетный файл для запуска майнера. Фактически большая часть процесса майнинга инициируется с использованием пакетного файла Windows.

В Windows, если Вы настроили майнер с помощью командного файла, Вы можете легко сделать скрипт с помощью этой простой команды.

Пример:

Чтобы дать майнеру некоторый перерыв перед повторным запуском процесса майнинга, Вы можете добавить команду TIMEOUT

Если Вы запустите указанную выше команду, то по умолчанию майнер будет ждать 60 секунд перед повторным запуском. Затем он продолжит добычу так долго, как сможет. В тот момент, когда ваш майнер опять выдаст ошибку или перестанет работать, скрипт вернется к оператору start, подождет 60 секунд и перезапустит процесс майнинга.

Также не забудьте добавить «pause» перед «goto start», которая будет повторяться только при нажатии любой клавиши.

Примечание. Приведенное выше решение является просто командой цикла для перезапуска пакетного файла. Он работает с любым программным обеспечением для майнинга и автоматически перезапускается при сбое GPU или остановке майнера.

Однако это не решение, если ферма полностью перестанет работать. Также Вы должны отключить диалоговое окно отчетов об ошибках Windows, которое остановит майнер от перезапуска.

Для Linux есть другой обходной путь, о котором мы расскажем в отдельной статье.

Надеемся, данная статья была для Вас полезной. Удачного майнинга!

Источник

RuntimeError: CUDA error: an illegal memory access was encountered (multi_tensor_apply at csrc/multi_tensor_apply.cuh:101) #319

Comments

nlp520 commented May 20, 2019

I use single card to run the amp, it produced the above error.
However I use more than one cards to train, it doesn’t produce ant error.

The text was updated successfully, but these errors were encountered:

mcarilli commented May 21, 2019

Do you have a minimal code sample that reproduces the error? Also, what is your environment (which pytorch version, which cuda version)?

nlp520 commented May 21, 2019

compile:
torch.version = 1.1.0
Compiling cuda extensions with
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130
from /usr/local/cuda/bin
Pytorch binaries were compiled with Cuda 10.0.130

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

nlp520 commented May 21, 2019

I use the apex to train the bert and it produce error in
with amp.scale_loss(loss, optimizer) as scaled_loss: scaled_loss.backward()

mcarilli commented May 21, 2019

What optimizer are you using? Also, how are you initializing Amp?

nlp520 commented May 24, 2019

I use the BertAdam optimizer and initialize the amp
self.model, self.optimizer = amp.initialize(self.model, self.optimizer, opt_level=opt_level)

mcarilli commented May 24, 2019 •

Are you using BertAdam from here? Also what value are you using for opt_level?

We’ve actually got some people right now working on optimizing BERT specifically. I’ll let you know if we encounter anything similar.

Источник