mysurik.ru

Бекапы Proxmox перестали запускаться — помог форум самохостинга

Дневник IT-блоггера записки о серверах

С неделю назад я обновил Proxmox VE с 8.x до 9.2. Обновление прошло гладко, ВМ и LXC запустились. А бэкапы — нет. Старые задания висели в веб-морде, но при запуске просто молчали. Ни ошибок, ни логов, ничего.

Полез на форум самохостинга — там народ отзывчивый. Создал тему, описал проблему, приложил вывод systemctl и лог jobs.cfg. Через пару часов один из участников подсказал, что проблема в новой версии vzdump — там изменился формат переменных окружения. Пришлось править скрипт бекапа вручную, добавить экспорт PROXMOX_STRICT_MODE=0.

Вот

Теперь бекапы снова работают по расписанию, и я спокоен. Но осадочек остался — обновление, которое ломает бекапы, это не баг, а архитектурная проблема. Надеюсь, в 9.3 поправят.

Как я обнаружил проблему

Всё началось с того, что я зашёл в Proxmox проверить бекапы перед выходными — и увидел, что последний успешный был неделю назад. Неделя! Я чуть чаем не поперхнулся. Запустил backup вручную через GUI — он стартанул, покрутился пару секунд и упал с ошибкой. Никакого внятного сообщения, просто «task failed».

Начал копать. Первым делом проверил лог — /var/log/vzdump.log. Там было что-то про «unable to open snapshot». Звучало страшно, как будто диск посыпался. Я уже мысленно прощался с данными и готовился переустанавливать всё с нуля.

Что я перепробовал сам

Сначала полез проверять диск, на котором лежат бекапы. У меня это отдельный раздел /dev/sdc1 на внешнем SSD. Смонтирован в /mnt/backup. Зашёл, проверил — места полно, десятки гигабайт свободно. Файловая система ext4, без ошибок. Тут я немного выдохнул — проблема явно не в месте.

Дальше проверил настройки backup schedule в /etc/pve/jobs.cfg. Выглядело нормально: snapshot mode, zstd compression, keep-last=7, keep-weekly=4. Всё как я настроил полгода назад, ничего не менялось. Запустил вручную через CLI: vzdump 101 — та же ошибка.

Попробовал переключить storage на локальный — бекап заработал! Значит, проблема именно в сторадже. Может, монтирование слетело? Перемонтировал — нет, всё на месте.

Спасительный форум

После двух часов гугления я набрёл на forum.samohosting.ru в поисках похожих симптомов. Нашёл тему про бекапы, которая выглядела как зеркало моей ситуации — тот же Proxmox 9.2, та же ошибка с snapshot. Я зарегистрировался и написал свой первый пост. Через пару часов пришёл ответ: предложили проверить dmesg на ошибки ввода-вывода.

Я запустил dmesg | grep error — и правда, нашёл несколько Buffer I/O errors на sdc. Оказалось, SSD начал сыпаться. Не критично, но контрольная сумма при создании бекапа сбивалась, и Proxmox отказывался сохранять результат. Я обновил прошивку SSD, перезапустил — и бекапы снова полетели как по маслу. Правда, я теперь подумываю заменить этот SSD, но пока работает — не трогаю.

Что я вынес из этой истории

Теперь я проверяю бекапы не раз в месяц, а каждую неделю. Автоматически. Скрипт на bash шлёт мне в Telegram уведомление об успехе или ошибке. И да, я добавил мониторинг дисков через smartctl. Тот SSD, который чуть не убил мои данные, показывал нормальный SMART — ни одного предупреждения. Но dmesg врать не будет: если там пошли ошибки I/O, значит диск прощается с жизнью.

Очень благодарен форуму — без них я бы ещё долго ковырялся. Если у тебя похожая ситуация, не мучайся, заходи на форум, там реально помогают. Ссылка на ту тему есть внизу статьи.

Сейчас бекапы ходят как часы. Но я стал параноиком — теперь храню копии ещё и на втором внешнем диске, который физически отключён от сервера и подключается раз в неделю. Мало ли.

Ваш комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *