Hola,
Creo que he conseguido resolver el problema que hacía que el servidor madre se colgara y hubiera que reiniciar.
Buscando en el log syslog
encontré esta linea justo en el momento del bloqueo:
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] e1000e 0000:00:1f.6 enp0s31f6: Detected Hardware Unit Hang:
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] TDH <0>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] TDT <1>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] next_to_use <1>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] next_to_clean <0>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] buffer_info[next_to_clean]:
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] time_stamp <10037cd19>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] next_to_watch <0>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] jiffies <10037cf10>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] next_to_watch.status <0>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] MAC Status <80083>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] PHY Status <796d>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] PHY 1000BASE-T Status <7800>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] PHY Extended Status <3000>
Mar 14 13:33:03 Anartist-Madre kernel: [14928.767473] PCI Status <10>
Buscando por internet qué podía ser, vi que se trataba de que se satura el ancho de banda y entonces se bloquea el servidor. Por lo que se ve, a varia gente le ha pasado con hetzner, nuestro proveedor.
Aquí encontré la solución que he aplicado:
sudo vim /etc/network/if-up.d/ethtool2
#!/bin/sh
/sbin/ethtool -K enp0s31f6 tx off rx off
sudo chmod 755 /etc/network/if-up.d/ethtool2
De momento lleva un par de semanas sin volver a dar problemas.
Un saludo,
Marcel