cerhu > linux.debian.user.french

Jean-Marc (08/03/2020, 01h10)
salut la liste,

Depuis quelques temps, j'ai des mail me disant que le daemon smartd a loggué des erreurs pour le périphérique Samsung SSD 950 PRO 256GB, S/N:S2GLNX0H729158H, FW:1B0QBXX7.

Il s'agit de mon disque SSD NMV.

Et les logs et mails ont commencés après la mise à jour du paquet smartmontools (6.6-1+b1 -> 7.0-2), ceci dit sans savoir s'il y a un lien quelconque entre cette màj et le problème.

Apparement, le disque va bien mais ajoute tous les jours une entrée à son log d'erreurs qui ressemble à ceci :
$ sudo nvme error-log /dev/nvme0 | head -30
Error Log Entries for device:nvme0 entries:64
..................
Entry[ 0]
..................
error_count : 3528
sqid : 0
cmdid : 0x1a
status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc : 0
lba : 0
nsid : 0
vs : 0
cs : 0
..................
Entry[ 1]
..................
error_count : 3527
sqid : 0
cmdid : 0xa
status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
parm_err_loc : 0
lba : 0
nsid : 0
vs : 0
cs : 0
..................

Un contrôle via smartctl ne donne rien d'alarmant à part l'ajout de log :

$ sudo smartctl -a /dev/nvme0
smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-4-amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, [..]

=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 950 PRO 256GB
Serial Number: S2GLNX0H729158H
Firmware Version: 1B0QBXX7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Controller ID: 1
Number of Namespaces: 1
Namespace 1 Size/Capacity: 256.060.514.304 [256 GB]
Namespace 1 Utilization: 106.228.342.784 [106 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 5761b0b172
Local Time is: Sat Mar 7 21:29:50 2020 CET
Firmware Updates (0x06): 3 Slots
Optional Admin Commands (0x0007): Security Format Frmw_DL
Optional NVM Commands (0x001f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Maximum Data Transfer Size: 32 Pages

Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 6.50W - - 0 0 0 0 5 5
1 + 5.80W - - 1 1 1 1 30 30
2 + 3.60W - - 2 2 2 2 100 100
3 - 0.0700W - - 3 3 3 3 500 5000
4 - 0.0050W - - 4 4 4 4 2000 22000

Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 33 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 11.141.571 [5,70 TB]
Data Units Written: 8.773.345 [4,49 TB]
Host Read Commands: 202.440.422
Host Write Commands: 115.540.892
Controller Busy Time: 850
Power Cycles: 5.041
Power On Hours: 6.022
Unsafe Shutdowns: 218
Media and Data Integrity Errors: 0
Error Information Log Entries: 3.528

Error Information (NVMe Log 0x01, max 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS
0 3528 0 0x001a 0x4004 0x000 0 0 -
1 3527 0 0x000a 0x4004 0x000 0 0 -
2 3526 0 0x0018 0x4004 0x000 0 0 -
3 3525 0 0x001a 0x4004 0x000 0 0 -
4 3524 0 0x001a 0x4004 0x000 0 0 -
5 3523 0 0x0006 0x4004 0x000 0 0 -
6 3522 0 0x0016 0x4004 0x000 0 0 -
7 3521 0 0x0012 0x4004 0x000 0 0 -
8 3520 0 0x001a 0x4004 0x000 0 0 -
9 3519 0 0x0013 0x4004 0x000 0 0 -
10 3518 0 0x0006 0x4004 0x000 0 0 -
11 3517 0 0x0016 0x4004 0x000 0 0 -
12 3516 0 0x001c 0x4004 0x000 0 0 -
13 3515 0 0x0012 0x4004 0x000 0 0 -
14 3514 0 0x0012 0x4004 0x000 0 0 -
15 3513 0 0x0013 0x4004 0x000 0 0 -
.... (48 entries not shown)

Une recherche sur le net ne m'a rien donné de vraiment intéressant.

Si l'un d'entre vous à une idée, elle est la bienvenue.

Bonne soirée.

Jean-Marc <jean-marc>
[..]
Étienne Mollier (08/03/2020, 10h30)
Jean-Marc, on 2020-03-07 21:37:56 +0100:
[..]
> status_field : 0x4004(INVALID_FIELD: A reserved coded value or an unsupported value in a defined field)
> parm_err_loc : 0
> lba : 0
> nsid : 0
> vs : 0
> cs : 0
> .................
> Un contrôle via smartctl ne donne rien d'alarmant à part
> l'ajout de log :


Bonjour, je me risque à faire une réponse au doigt mouillé.

À mon sens aussi, il n'y a rien d'inquiétant.

Si le problème est apparu au moment de la mise à jour, il est
probable que la nouvelle version de smartmontools ait
nouvellement pris en charge l'affichage d'un nouveau champ géré
par le firmware du NVMe. Il y a donc deux possibilités:

- soit l'implémentation de smartmontools est incorrecte;
- soit le remplissage du "status_field" par le firmware est
erroné.

Si c'est le second cas, alors je crois qu'il est possible qu'un
message relatif à un champ SUBNQN invalide apparaisse dans le
journal du noyau. Juste pour satisfaire ma curiosité
personnelle, que donne :

# dmesg | grep SUBNQN

Peut-être qu'une mise à jour du microcode du NVMe corrigerait
alors le problème, si vous avez le courage de vous lancer là
dedans. Sinon, en dehors du bruit dans les entrées de journal,
ça ne devrait pas poser de problèmes.

Amicalement,
Jean-Marc (08/03/2020, 12h40)
Sun, 8 Mar 2020 09:23:28 +0100
Étienne Mollier <etienne.mollier> écrivait :

bonjour Étienne,

> Bonjour, je me risque à faire une réponse au doigt mouillé.


Par les temps qui courent et avec la présence du covid-19, est-ce bienraisonnable ?
:-)

> À mon sens aussi, il n'y a rien d'inquiétant.


Je le pense aussi.

[..]
> journal du noyau. Juste pour satisfaire ma curiosité
> personnelle, que donne :
> # dmesg | grep SUBNQN


Rien dans la sortie de dmesg. Pas de SUBNQN, ni d'autres erreurs.
J'y ai déjà jeté un oeil en détail sans le mentionner dans le mail original.

> Peut-être qu'une mise à jour du microcode du NVMe corrigerait
> alors le problème, si vous avez le courage de vous lancer là
> dedans. Sinon, en dehors du bruit dans les entrées de journal,
> ça ne devrait pas poser de problèmes.


Je vais regarder ce qu'il est possible de faire pour mettre à jour le microcode.
Mais c'est une opération délicate. Donc, si ce n'est que pour supprimer le rapport quotidien de cette "erreur", je pense que je vais laisser le tout comme ça.

> Amicalement,


Bonne journée.

> Étienne Mollier <etienne.mollier>


Jean-Marc <jean-marc>
[..]
Discussions similaires
Erreur réseau ou erreur disque

"erreur de redondance cyclique" de disque dur vers disque dur

Message d'erreur: "Erreur de lecture sur disque dur" lorsque j'exécute FDISK.

message d'erreur 'erreur d'ecriture sur le disque'


Fuseau horaire GMT +2. Il est actuellement 09h15. | Privacy Policy