Administration system and ePOS partially down
Incident Report for Storyous
Resolved
This incident has been resolved.
Posted Oct 31, 2021 - 09:41 CET
Update
All services are up and running. It can be a bit slow in next 30 minutes.

Všechny služby fungují. Během následujících 30 minut může být aplikace pomalejší.
Posted Oct 31, 2021 - 09:01 CET
Update
Customers with issues from 28.10. evening should see their ePOS systems to synchronize and connect to the server. There can be some minor issues (like a slow response) in the next 30-60 minutes (19:00 - 20:00)
Customers which have issues from today 30.10. 17:00 will be fixed during 31.10. 08:00 - 22:00 (we will do it as fast as possible)

Zákazníci, kteří měli problémy od večera 28.10. jsou nyní zprovozněni. Během následujících 30-60 minut může být systém pomalejší.
Zákazníci, u kterých se problémy objevili dnes 30.10. od 17:00 budou zprovozněni během 31.10. 08:00 - 22:00 (pracujeme na tom, aby to bylo co nejrychlejší.)
Posted Oct 30, 2021 - 18:57 CEST
Update
Customers who were affected this morning (01:00 - 10:00) are fully operational now. Service can be little slower for a few minutes.
For customers who were affected from yesterday 29.10. - we are working hard on it, we expect to be back online this evening. ETA 30.10. 20:00 - 24:00

U těch z vás, kteří zaznamenali problém toto ráno (01:00 - 10:00), je situace již vyřešena a služba je zcela funkční. Pár minut teď může být akorát pomalejší.
Ti z vás, kdo měli problémy již ze včerejška 29.10. (pátku), budou mít zcela funkční službu během tohoto večera. Odhad plného zprovoznění: mezi 30.10. 20:00 - 24:00
Posted Oct 30, 2021 - 10:06 CEST
Update
There are issues with other databases starting this saturday morning. We expect to be back online for all of currently affected customers by this evening. Customers who already had these issues in last week are without risk of happening again.

(cz translation): Objevili se problémy na dalších databázích tuto sobotu ráno. Očekáváme že vše bude zprovozněno během sobotní noci. Zákazníci, kteří již v posledním týdnu měli tyto problémy, se již nemusí obávat, že by se to u nich stalo znovu.
Jde o oficiálně uznanou chybu na MariaDB databázi ve verzi kterou poskytuje Amazon (AWS RDS), kde máme databáze. Amazon uznal že jde o tuto chybu, ale není schopen nám umožnit přesun na jinou verzi nebo tuto chybu opravit. Naše jediná možnost je přesunout veškeré databáze na jiný hosting a to je i důvod tak dlouhotrvajících výpadků (musíme kompletně zazálohovat, přesunout a nasadit databázi jinde). Real-time zálohu (read-replica) a multi-az samozřejmě máme, ale to použít nestačí, neboť vše běží ve stejné verzi s chybou a zanedlouho se to stane znovu.
Posted Oct 30, 2021 - 04:18 CEST
Monitoring
The main incident was successfully fixed, but unfortunately for a part of our users, the problem with the administration and ePOS will remain for 16 to 48 hours.
We expect that system will be fixed between 29.10. 22:00 - 30.10. 22:00

Technical description of incident
Libor Vilímek (CTO of Storyous): Unfortunatelly there is critical bug in MariaDB 10.5.12 (officialy acknowledged by AWS and MariaDB) in latest version provided by Amazon Cloud (AWS RDS). Amazon support is well aware of situation (we are in contact with them), but they are not able to apply patch to fix (which exists) or provide us with unaffected version. We have to move the whole database elsewhere.
All currently non-affected customers have their data real-time replicated to database-expert company, which allows us to restore the service in case of Amazon failure in about 2 hours (which happened today to some of our customers). Planned migration will result only in 5-10 minutes partial downtime during early-morning hours and will take place for some of the customers between 1.11. - 5.11.
Unfortunatelly the replication was not done fast enough for 1/8 of our customers. Those are now affected with 16-48 hours downtime as we have to do full dump and restore (official recommendation by Amazon).
Those who already had these issues in last few days are fully migrated now and without risk of hapenning again.
Posted Oct 28, 2021 - 20:59 CEST
Identified
A part of our users is not able to use the Administration system and ePOS. We have a recovery plan and we hope we will be fully operational in 2 - 3 hours.
Posted Oct 28, 2021 - 17:21 CEST
This incident affected: Pokladní systém, tablety (POS) and Administration (admin.storyous.com).