gpu driver error no temps hive os что это
Майнинг криптовалюты: трудности и способы их решения
Каждый пользователь Hive OS сталкивается с той или иной трудностью. Например, непониманием того, как обновить драйвера для AMD или Nvidia. В этом мануале вы сможете найти лайфхаки для решения самых популярных проблем.
Обновление драйверов AMD
Драйвера для карт AMD обновляются только вместе с образом. Для того, чтобы выбрать нужную вам версию, сначала запустите Hive Shell. Найти его можно в веб интерфейсе вашего воркера здесь:
После этого нажмите на этот значок:
Мы попали в Hive Shell. Теперь вводим команду:
Перед нами появился список всех доступных образов. Рядом с ними указаны версии драйверов. Если вам нужна последняя версия драйверов AMD, то просто введите ту цифру последнего стабильного образа (Last stable image):
После этого дождитесь установки нового образа и драйверов.
Вы также можете обновить драйвера AMD одной командой. Для этого в Hive Shell введите:
Начнется установка последнего стабильного образа и самых новых драйверов.
Обновление драйверов Nvidia
Для обновления драйверов Nvidia нам снова понадобится Hive Shell. Для просмотра всех доступных для скачивания версий драйверов вы можете ввести команду:
Появится список всех доступных для скачивания и установки драйверов. Введите нужную вам версию и нажмите клавишу Enter.
После установки воркер перезагрузится. Ваши драйвера обновлены.
Ошибка 511
“Autofan: GPU temperature 511 is unreal, driver error”, она же ошибка 511, обычно выглядит так:
При возникновении этой ошибки вам необходимо проверить райзеры, подключения к ним, кабеля и разъемы питания. Возможно где-то отошел или оплавился кабель, разъем.
Чтобы узнать из-за каких карт возникает эта ошибка, нажмите на нее. Откроется лог такого типа:
В данном случае нужно проверить райзеры, кабеля и разъемы второй и седьмой карты на шине. Номер карты на шине под номером GPU каждой карты в воркере.
GPU driver error, no temps
Часто пользователи сталкиваются с ошибкой GPU driver error, no temps. Обычно она выглядит так:
Чаще всего она возникает из-за переразгона. Попробуйте снизить параметры разгона. Если у вас карты Nvidia, то попробуйте увеличить значение параметра PL.
Из-за чего чаще всего возникает проблема на воркере?
Ниже представлен список, где чаще всего появляется проблема:
слишком высокие или слишком низкие настройки разгона
неправильные конфигурации майнера/полетного листа
неправильные настройки BIOS материнской платы
проблемы с соединением
Обновление Hive OS
В случае возникновения проблем, убедитесь, что вы используете последнюю версию образа HiveOS.
⚠️Внимание: Обновление Hive через веб интерфейс или в CLI (apt update && selfupgrade) не является обновлением образа.
Они состоят из обновлений майнеров, исправлений ошибок и незначительных дополнений функций, но они НЕ изменяют ваш основной образ.
Чтобы обновить образ, вы можете скачать его и прошить на ваш диск с помощью, например, balenaEtcher, или же вы можете выполнить Live Replace с помощью команды
Для этого либо подключитесь по SSH, либо используйте Hive Shell и выполните следующую команду:
Рекомендуемые настройки BIOS материнской платы
Обновите BIOS до последней версии и проверьте следующие настройки:
PCIe Link Speed GEN2
Декодирование 4G ВКЛЮЧЕНО
Поддержка CSM ОТКЛЮЧЕНА
Ошибки/вопросы
Температура GPU 511 нереальная
Это ошибка GPU, точнее, это сбой при отключении питания, при котором программное обеспечение пытается запросить GPU и не получает ничего или получает недействительные данные.
Обычно это вызвано плохим райзером/кабелем(ями), которые подключены к нему.
Проверьте свои кабели и избегайте использования SATA кабелей для питания райзеров.
0% скорости вращения вентиляторов / ошибки вентиляторов в целом
Это может произойти по нескольким причинам
— вентилятор действительно не вращается
— датчик оборотов отсоединен или сломан
— карта слишком сильно разогнана (обычно так и бывает).
Ошибки Illegal memory access
В основном вызваны слишком агрессивными настройками тактовой частоты памяти.
File-System is read-only
Перезагрузитесь, если проблема не исчезла, начните с перезаливки образа на ваш диск. Если ошибка повторяется, замените диск.
Stale shares are predominantly caused by network issues between your worker and the pool.
— Stale Shares в основном вызваны сетевыми проблемами между вами и пулом. Проверьте свою сеть, перезагрузите маршрутизатор, попробуйте публичный DNS или включите DoH в настройках воркера.
— Проверьте подключение ко всем узлам и выберите лучший в вашем конкретном случае. Протестируйте TCP и TLS узлы и проверьте, что работает лучше для вас.
— Запустите mtr + адрес пула, т.е. mtr eu-eth.hiveon.net, по крайней мере, на 100 пингов и проверьте потери пакетов.
— Избегайте WiFi, который не так стабилен и надежен, как проводное соединение.
Графические процессоры серии Nvidia 30×0 не показывают температуру памяти
Nvidia не отображает эти параметры в драйверах Linux. Когда/если они появятся, они будут доступны и видны, как и другие поддерживаемые карты. Проверьте тему на официальном форуме по этому вопросу.
Общее устранение неполадок
Включите и проверьте журналы (logs-on && reboot). Находится в /var/log/
Убедитесь, что все правильно установлено.
Проверьте и протестируйте райзеры/кабели и убедитесь, что все правильно подключено.
При необходимости тестируйте каждый GPU по отдельности, и только после того, как будет обеспечена стабильность, приступайте к работе.
❗️ Напоминаем, что по вопросам разгона вы можете обратиться в Off-Topic чат в телеграм.
Рекомендуемые майнеры
🧪 Все эти майнеры были тщательно протестированы. Они лучшие в плане стабильности и производительности:
✅ TeamRedMiner | lolMiner для AMD GPU.
✅ T-Rex | GMiner | lolMiner для графических процессоров Nvidia (lolMiner для 3060).
✅ lolMiner | GMiner для рабочих гибридов (AMD+Nvidia GPU).
⚠️ NOTE: Мы не рекомендуем следующие майнеры; ⚠️
Что делать, если в этом мануале нет решения вашей проблемы?
Итак, мы разобрали основные проблемы и ошибки, с которыми чаще всего сталкиваются пользователи Hive OS. Если вы столкнулись с проблемой, которая не описана в этом мануале, то вы можете обратиться в любой из следующих ресурсов:
чат поддержки в телеграм (в чате вы можете воспользоваться поиском. Велика вероятность того, что решение вашей проблемы уже было написано)
отправить вопрос/проблему в чат на сайте (кликните на белую кнопку справа внизу)
Также у нас имеется база знаний, где вы также можете найти ответ на ваш вопрос.
Autofan: GPU temperature 511 is unreal, driver error
Autofan: GPU temperature 511 is unreal, driver error ошибка в Hive OS.
Ошибка GPU temperature 511 is unreal, driver error, как правило возникает из-за проблем с питанием райзеров или видеокарт. Может возникать эпизодически или с нарастающей частотой, обычно на риге «отваливаются» видеокарты, как правило подключенные к одному и тому же блоку питания и ферма перезагружается. Непосредственная причина может быть в обгорающих контактах в разъемах цепей питания, некачественных переходниках питания райзеров и видеокарт, некачественных кабелях и неисправностях в схемотехнике блоков питания.
Совет: USB райзеры 006c с разъемами питания 6 pin и серверные блоки питания, оптимальны для построения ферм с количеством видеокарт от 6-и и выше.
Часто незафиксированный разъем переходника (см. фото) приводит к подгоранию контактов и проводов внутри разъема и появлению ошибки Autofan: GPU temperature 511 is unreal, driver error.
Проверяем в таком порядке: ревизируем и заменяем переходники питания и коннекторы; меняем райзера; меняем блоки питания. Промеряйте напряжения на всех разъемах, случается вместо 5 вольт или 12 блок питания подает повышенное или пониженное напряжение.
В ряде случаев ошибку можно наблюдать из-за некачественной внешней линии питания или пониженного или повышенного напряжения в ней. Здесь алгоритм действий следующий, проверяем: напряжение в линии питания вольтметром, кабели блоков питания, удлинители, сетевые фильтры и качество проводки. Промеряйте ваттметром энергопотребление фермы, повышенное потребление сигнал о некачественной проводке (может быть скрытый нагрев в стенах и распределительных коробках), неплотных и подгорающих контактах питания в цепи или выходе из строя одного из потребителей.
Иногда оправдано протянуть отдельную линию питания для фермы от щитка со своим автоматом или группой автоматов для каждого рига. Провода и разъемы, после монтажа, не должны нагреваться, используйте клемники и хорошие провода с толстым сечением и обязательно заземляйте блоки питания ферм и другое оборудование.
Совет: отдельная линия питания со своим автоматом на каждый риг и общим автоматом на группу ферм, наилучшее и профессиональное решение.
В случае если ферма работает на нескольких блоках питания, проблема GPU temperature 511 is unreal, driver error, приводит к полной остановке одного из блоков питания. Это сужает круг поиска проблемы, ревизируйте линии питания ведущие к этому блоку, вскройте (если блок не гарантийный) и проверьте сам блок (вздувшиеся и разорванные конденсаторы, поврежденные микросхемы, потемнения текстолита в районе дорожек и прогары) как вариант можно заменить блок питания. Иногда может помочь простая пересборка фермы, когда вы переподключите все коннекторы питания, устранив неплотный контакт в переходниках.
Откажитесь от использования дешевых китайских переходников 8 pin CPU на 2×6+2 pin VGA. Сечения провода используемого в таких переходниках явно недостаточно для продолжительной работы фермы под нагрузкой.
Если все вышеперечисленные мероприятия не помогли, поменяйте все блоки писания на которых работает ферма и помониторьте работу оборудования с новыми блоками питания. Не рекомендуем использовать блоки питания из недорогих линеек производителей Zalman, Aerocool, ACCORD и т.д. В случае с подобными блоками питания даже сертификат стандарта 80 PLUS BRONZE, не дает ни каких гарантий стабильной работы фермы.
В практике был случай когда блок питания AeroCool HIGGS Modular мощностью 850 Ватт, просаживался по линии питания +3.3 вольта, и эта линия питания даже не была задействована в работе фермы, райзера использовались с разъемами Molex, но ферма останавливалась. И сколько мы не измеряли напряжения под нагрузкой во время работы фермы, причину сбоев в работе понять не могли, ведь измеряли напряжения по линиями +12 вольт и +5 вольт. Заменили блок питания, ферма заработала стабильно и уже только после этого, в результате полной диагностики блока питания, неполадку удалось выявить и устранить.