From: Igor Anishuk <igor@nata-info.ru.>
Newsgroups: inet-admins@info.east.ru
Date: Sun, 30 Mar 2008 17:02:14 +0000 (UTC)
Subject: Проявление сбоев связанных с памятью и их выявлеине
IMP> "make -j32 buildworld работает"
IMP> В пр-цпе, это обычно эквивалентно тестированию CPU, RAM, disks, etc.
IMP> Не точному, конечно, но тестированию.
Нет, не соответствует. Я уже тут писал свой опыт.
"Тестировал" таким образом сутки, все работало. Но в нормальной работе сервер
глючил раз в неделю стабильно - то консоль повиснет, то сеть наполовину
пропадет, процессы кору бросали постоянно, особенно частозапускаемые.
Проверил memtest'ом - в ОДНОЙ ячейке памяти глючил ОДИН бит - из него всегда
читался нолик. Вот такая фигня.
From: Igor M Podlesny <poige@morning.ru.>
> Нет, не соответствует. Я уже тут писал свой опыт.
гм, я подчеркнул, см. выше. И это тоже личный опыт.
Кстати, есть другой неплохой квазитест памяти:
# получим кучу несжимаемых данных
dd if=/dev/urandom of=random.dat bs=1M count=БОЛЬШЕРАЗМЕРАОЗУ
bzip2 -c < random.dat > random2.dat.bz2
# распакуем в /dev/null (можно и на диск конечно)
bzip2 -dc < random2.dat.bz2 > /dev/null
Сбой обычно выглядит так (приведу отрывок из IRC-лога):
May 18 19:11:58 <PROTECTED> bzcat: Data integrity error when decompressing.
May 18 19:11:58 <PROTECTED> Input file = rnd.dat.bz2, output file =(stdout)
May 18 19:12:04 <PROTECTED> оно ?
May 18 19:12:11 <poige> оно
May 18 19:12:22 <PROTECTED> спасиб, ты мне очень помог.
...
May 18 19:13:52 <PROTECTED> у меня просто было такое в личном опыте.
May 18 19:14:31 <PROTECTED> но ведь это может в принципе быть любое звено в цепи диск-камень память ?
May 18 19:14:42 <poige> угу
Таким методом можно "мемтестить" без серьезного downtime, что, обычно,
весьма привлекательно.
From: Бохонкович Юрий <byg@center-f1.ru.>
> во как.. а долго memtest это искал? а то это колокейшн..
зависит от - у нас сервер IBM Netfinity 5000 (2xpiii-500) с
полгекатром на борту стал сообщать о проблемах с ECC (оно rulez BTW!) - то
есть продолжает работать но врменами притормаживает - работает только за
счёт запаса по ECC. memtestом (memtest86.com - очень удобно - можно с
дискеты грузится без ОС можно с сидюка аналогично - даже есть дистр
линукса с этим встроенным тестом - blin linux) быстрым прогнал - всё OK -
но в логе сервера (аппаратном) - куча ошибок уже других чем при обычной
работе но тоже связанных с памятью (ECC error rate exceeded) а на
медленном тесте - показывает ошибки в разных местах но делает один проход
зараза за сутки.:(
другой опыт - машина-рутер начала глючить не с того ни с сего - заменили
врменно на другую - прогнали на этой мемтест - оно.:(
ещё был сервак с гектаром озу - только в самом конце длинного теста
появлялись ошибки - пришлось ждать тоже энное время.:(
поймите что по хорошему оттестировать память можно только на большом
сочетании разных шаблонов, учитывающих смехотехнику озу.
это я Вам как дипломированный схемотехник говорю.
так что ищите временную замену серваку, снмайте его с боевого дежурства и
тестите вышеуказыннм тестом (не досовским - он гораздо хуже и бывает
пропускает ошибки) и желательно не 1 проход сделать чтобы память
прогрелась как следует.
409 Прочтений • [Проявление сбоев связанных с памятью и их выявлеине (memtest memory crash test)] [08.05.2012] [Комментариев: 0]