Рассмотрим одну из проблем, с которой столкнулась наша поддержка: требуется много времени (~4 минуты) на расширение диска с 40 Гб до 4 Тб в виртуальной машине, при том что, если добавляется новый диск из LUN-хранилища Huawei, то на это требуется всего несколько секунд.
В логах при этом мы видим что Vmware была остановлена во время этого расширения:
2019-07-31T10:15:09.784Z| vcpu-0| I125: Checkpoint_Unstun: vm stopped for228266202 us
После проверки производительности LUN во время расширения емкости диска со стороны хранилища мы видим, что VMware отправляла большое количество операций чтения продолжительностью около 4 минут, то есть то же самое время, что затрачивается на расширение. Операций записи было очень мало, отсюда делается вывод, что для дисковой подготовки виртуальной машины применяется политика «Thick Provision Lazy Zeroed»
Из логов по I\O видно, что проблем со стороны СХД не было
Дальнейшим шагом у нас будет изменения интервала выборки сбора статистики с 60 секунд, установленных по умолчанию, на 5 секунд (главное не забыть потом вернуть на место).
И теперь мы видим, что во время операции расширения емкости Vmware отправлял на СХД непрерывную операцию чтения, скорость которой составляет в среднем 400 МБ/с, после завершения которой завершилось и расширение.
В теории для подобной политики при расширении такого количества операций чтений быть не должно, только небольшая запись метаданных в бэкенд-хранилище.
В итоге для понимания этой проблемы, наши инженеры провели множество тестов в лаборатории, и, наконец, обнаружили и подтвердили, что эта проблема связана только с хранилищем данных vmfs6. При использовании хранилища данных vmfs5 расширение по тому же сценарию завершается не в пример быстрее.
Ну и в итоге, Vmware официально ответил, что эта проблема связана с политикой vmfs6 + Thick Provision Lazy Zeroed:
С релиз ноутсами 6.5 u3 можно ознакомиться здесь: https://docs.vmware.com/en/VMware-vSphere/6.5/rn/vsphere-esxi-65u3-release-notes.html где это так же описывается
Так что решений данной проблемы на текущий момент два:
1. Использовать vmfs 5 хранилище вместо vmfs 6 или не использовать политику Thick Provision Lazy Zeroed с vmfs 6
2. Обновить VMware до версии 6.5 u3 – главное только убедиться, что совместимость с Huawei оборудованием подтверждена.