Datacenter storing Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing netwerkverbinding datacenter

Er is een algemene netwerkstoring in de verbinding met onze datacenters in Amsterdam. Het is nog onduidelijk of één of meerdere datacenters getroffen zijn. Hierdoor kan het zijn dat er sprake is van haperende gesprekken.

 

13:34 - Start incident

13:48 - Gemeld bij provider, is al bekend en zijn er mee bezig

14:10 -  Opgelost, er was sprake van een DDOS aanval door een machine (niet van ons!) binnen één van de datacenters waardoor de transit verbindingen vol liepen met traffic. 

Storing VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing VoIP provider

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen er geen uitgaande gesprekken niet tot stand komen.

 

14:29 - Probleem gemeld

14:37 - Er wordt gewerkt aan een oplossing bij de provider

15:55 - Uitgaand bellen is weer volledig mogelijk. We blijven de situatie monitoren. Terugkoppeling over de storing volgt nog.

20-06-2024 : Terugkoppeling provider:

 

Oorzaak van de verstoring is teruggeleid naar een menselijke aanpassing dmv het toevoegen van een VLAN aan het Cloud Voice platform. Dit had een onverwacht effect data als gevolg van mirroring de destination adressen werden gewist. In een test omgeving konden we dit niet reproduceren en onderzoek loopt waarom dit niet gereproduceerd kan worden in test-omgeving.

  • De betreffende afdeling welke verantwoordelijk was voor de aanpassing is gewezen op de interne procedure voor het doorvoeren van aanpassingen. Daarnaast is de procedure geëvalueerd en hierbij hebben we geconcludeerd dat de procedure zoals vastgelegd de verstoring had voorkomen, wanneer deze was gevolgd.
  • Aangescherpt wekelijks Change Advisory Board overleg om alle potentiële changes die productie omgevingen raakt buiten kantoortijden te plannen.

14:27 Monitoring detecteerde problemen met voice-devices in het ams3 DataCenter.

14:28 Monitoring detecteerde meerdere voice-devices als onbereikbaar in het ams3 DataCenter.

14:30 Een war room werd opgericht met alle voice engineers en cloud engineers, CTO en MD.

14:32 Een wijziging welke had plaats gevonden op het Cloud platform werd teruggedraaid.

14:40 Main Issue leek verholpen. Maar uitgaand verkeer bleef problemen behouden

15:40: Probleem gedetecteerd en oplossing toegepast.

15:45 Uitgaand verkeer volledig terug hersteld.

17:12 Additioneel probleem gemeld met de VAMO-oplossing (in gebruik op Swyx platform voor enkele klanten)

17:15 Nieuwe volledige registratie push van de VAMO-oplossing uitgevoerd.

17:16: Alle problemen zijn hersteld.

Storing VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing inbound en outbound telefonie

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen er geen inkomende en uitgaande gesprekken niet tot stand komen.

 

13:49 - Probleem gemeld

14:08 - Er wordt gewerkt aan een oplossing bij de provider

14:40 - Update van onze provider: Het probleem is nog altijd in onderzoek. De geschatte oplostijd is momenteel onbekend. We werken eraan om dit zo snel mogelijk te verhelpen en zullen een update plaatsen zodra er meer bekend is.

15:20 - Update van onze provider: Het verkeer is gedeeltelijk hersteld en we werken verder aan volledig herstel. We blijven de situatie monitoren totdat alles volledig hersteld is.

15:45 - Het verkeer is hersteld en wordt in monitoring gehouden.

Oorzaak:

Oorzaak van de verstoring is herleid naar een menselijke aanpassing en fout, waarbij de interne procedures niet zijn gevolgd. De aanpassing was niet gedocumenteerd en werd uitgevoerd tijdens kantoortijden. Door het ontbreken van de vastlegging van de aanpassing heeft de oplossing langer geduurd dan noodzakelijk.

Actie:

De betreffende afdeling welke verantwoordelijk was voor de aanpassing is gewezen op de interne procedure voor het doorvoeren van aanpassingen. Daarnaast is de procedure geëvalueerd en hierbij hebben we geconcludeerd dat de procedure zoals vastgelegd de verstoring had voorkomen, wanneer deze was gevolgd.

Datacenter storing Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing Digital Realty

Er is een algemene storing bij één van onze datacenters (Digital Realty). Hierdoor is het wellicht niet mogelijk om in te loggen op Telforce en ook gesprekken kunnen hierdoor afgebroken worden.

 

12:00 - Start incident

12:05 - Er wordt gewerkt aan een oplossing bij de provider

12:20 - Diensten zijn weer hersteld maar onderzoek loopt nog

Storing VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing inbound en outbound telefonie

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen de meeste uitgaande gesprekken niet tot stand komen, het lijkt er op dat het probleem al opgelost is maar mocht het toch aanblijven neem dan contact op via support@telforce.nl

 

15:45 - Probleem gemeld

16:00 - Er wordt gewerkt aan een oplossing bij de provider

16:08 - De diensten zijn langzaam bezig te herstellen

17:04 - De storing blijkt betrekking te hebben op slechts 1 van de datacenterlocaties van onze provider, men is hier met man en macht mee bezig om het op te lossen. Sommige van onze klanten hebben een verbinding met een ander datacenter en hebben geluk en ondervinden nauwelijks problemen.

17:17 - Er wordt nog steeds onderzoek gedaan maar volgens onze provider speelt dit probleem nu nog maar bij minder dan 1% van de klanten.

18:14 - Bijna alle diensten zijn hersteld. Echter er zijn nog wel problemen met VAMO simkaarten. Hier wordt op dit moment aan gewerkt om te herstellen.

21:04 - Alle diensten zijn hersteld. Analyse van de achterliggende oorzaak wordt nog gedaan.

 

3-8 - root cause analyse:

 

In de middag van 31-07-2023 omstreeks 15:30 uur is er problematiek ontstaan rondom trunk-registraties waardoor de volgende platformen (3CX, Swyx) niet meer bereikbaar waren en bij klanten/partners die uitsluitend trunks afnemen ook geen verkeer meer mogelijk was. Hierdoor waren onze support afdelingen eveneens niet bereikbaar omdat dit verkeer intern via één 3CX centrale verloopt. De overige afdelingen (bv Sales) waren wel bereikbaar omdat deze rechtstreeks op Dstny UCaaS bereikbaar zijn. Om 15:45 uur werd de 3CX centrale voor het support verkeer verwijderd en waren onze support afdelingen weer direct telefonisch bereikbaar.

Na eerste analyse bleek een mass storage device, waar o.a. onze 3CX en Swyx platformen gebruik van maken, in één van onze datacenters, een zeer hoge piekbelasting te hebben.

Verder bleek er meer aan de hand dan alleen problematiek rondom trunk registraties, de volledige diensten in het betreffende datacenter (AMS3) hadden problemen door de mass storage latency: database nodes, Homeproxy, register offload proxies, Asterisk backends, FLUX, etc.

Doordat de Homeproxy gecrashed was met een kernel panic in AMS3 konden zowel INVITEs als REGISTERs aan die kant niet afgehandeld worden. Deze is vervolgens manueel geherstart door onze engineers. Door de herstart van de applicatie werd een ontbrekende database configuratie op deze proxy ontdekt hetgeen een probleem vormde voor het afhandelen van REGISTERs. De register offload proxies in AMS3 hadden ook een kernel panic en ook deze zijn vervolgens manueel herstart door onze engineers.

De ontbrekende database configuratie op deze proxy was helaas het gevolg van een human-error van één maand eerder bleek bij latere analyse. De ontbrekende data in de database werd handmatig toegevoegd tussen 17:05 en 17:15 uur waarna alle trunk registraties zonder verdere problemen verliepen.

Vervolgens bleek telefonie verkeer die gebruik maakt van onze FMU (Vast-Mobiele integratie) niet meer te functioneren. Uit kortstondige analyse bleek dat een server voor het functioneren van de FMU niet meer te bereiken was omdat het file system van de betreffende server in read-only mode was terecht gekomen. Dit bleek niet onmiddellijk hersteld te kunnen worden en daarom werd uiteindelijk besloten om een handmatig fail-over uit te voeren naar het back-up systeem op 18:50 hetgeen succesvol verliep waardoor ook het FMU gerelateerde verkeer werd hersteld. Het file system van de primary server werd op 1/8 hersteld en het verkeer op de fail-over werd op 1/8 om 19:00 uur weer teruggezet naar de primary server zodat redundantie weer aanwezig is voor de FMU configuratie.

Op 2/8 en 3/8 is er nog een nasleep van issues is geweest op enkele  Swyxservers. De issues zijn bijna allemaal opgelost na een herstart van de betreffende Swyxservers maar heeft impact gehad op de bereikbaarheid.

  • Root Cause Identification

Een opruimactie op een legacy virtualisatie platform in de ochtend van 31/7 heeft een trigger veroorzaakt waardoor de mass  storage in ons data center AMS3 rond 15:30 enkele minuten een  extreem hoge latency heeft gehad.

Dit heeft ervoor gezorgd dat verschillende diensten in AMS3, waaronder de SBC en enkele SIP register nodes een kernel panic kregen. Na manuele herstart van de getroffen processen heeft de ontbrekende database configuratie ervoor gezorgd dat in AMS3 nog altijd problemen waren met het verwerken van SIP registraties. Ook het FMU platform maakt gebruikt van dezelfde (redundante) storage en dit verklaart ook dat het file system van de server voor het afhandelen van FMU API-calls corrupt werd

  • Improvements/Lessons Learned
  • De virtualisatie omgeving is verouderd en wordt geleidelijk uitgefaseerd en omgezet naar VMware.
  • We gaan onderzoeken of de mass storage gesplitst kan worden (door devices toe te voegen) zodat niet alle platformen op dezelfde storage gekoppeld zijn en de impact in de toekomst kleiner van omvang is.
  • Structuur voor de configuratie in de database is aangepast zodat hier beter beheer voor mogelijk is en de human error niet meer kan voorkomen.

Spoedonderhoud Status: Opgelost
Prioriteit - Hoog Storingsdomein Systeem - Virtualisatieplatform

Naar aanleiding van het onderhoud van zondag is er een functionaliteitsprobleem ontstaan met een netwerkverbinding naar onze NFS omgeving. Deze wordt vanavond opgelost. Tevens wordt meteen een upgrade naar de nieiuwste versie van het virtualisatieplatform die al op de planning stond. Tenslotte wordt de originele server teruggeplaatst waarvoor er op 20-08-2022 een storing heeft plaatsgevonden. 

Storing virtualisatieplatform Status: Opgelost
Prioriteit - Kritiek Storingsdomein Systeem - Storing virtualisatieplatform

Één van onze servers is getroffen door een hardwarestoring. Als gevolg hiervan is er downtime voor enkele van onze klanten. Na diagnose bleek het moederbord van de server defect. Tijdelijk is de gehele server vervangen in afwachting van een spare part replacement.

Onderhoud virtualisatieplatform Status: Opgelost
Prioriteit - Gemiddeld Storingsdomein Systeem - Virtualisatieplatform

We doen een upgrade van ons virtualisatieplatform naar een nieuwe versie. Dit is een tussenstap, binnenkort volgt er nog een update.

Storing Amsterdam IX Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Internet

Algemene storing bij Amsterdam IX. Te zien op allestoringen.nl

 

https://www.ams-ix.net/ams

Storing VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - VoiP provider

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen de meeste uitgaande gesprekken niet tot stand komen, het lijkt er op dat het probleem al opgelost is maar mocht het toch aanblijven neem dan contact op via support@telforce.nl

 

14:10 - Probleem gemeld

14:21 - Er wordt gewerkt aan een oplossing bij de provider

14:37 - Oplossing is uitgevoerd en monitoring vindt nu plaats

16:50 - Geen storingen meer gemeld en afgemeld door provider

Storing VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - VoIP

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen sommige inkomende en uitgaande gesprekken een audio probleem ondervinden, vaak is er dan stilte te horen en duurt het een tijd voordat het gesprek tot stand komt of komt het helemaal niet tot stand. We hebben de storing bij onze VoIP provider gemeld en er wordt aan gewerkt. Oplostijd nog onbekend.

 

15:28 - De oorzaak is nu bekend en men werkt aan een oplossing. Verwachte oplostijd nog niet bekend.

17:30 - Het probleem zou opgelost moeten zijn

Storing SIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - VoIP

Er is een algemene storing bij één van onze SIP providers. Hierdoor kunnen sommige klanten niet uitbellen. We hebben de storing bij onze SIP provider gemeld en er wordt aan gewerkt. Oplostijd nog onbekend.

One way audio issues Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Degraded service

Er spelen sinds vanochtend 10:45 problemen bij verbindingen via één van onze VoIP providers bij klanten die zover we nu kunnen zien allemaal internet hebben via KPN. Oplostijd onbekend.

Grote storing bij KPN Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Grote storing bij KPN

Er is een grote storing bij KPN waardoor in grote delen van Nederland niet van en naar KPN verbindingen gebeld kan worden. o.a. 112 is ook nietbereikbaar.

Storing T-Mobile Tele2 Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - T-Mobile Tele2 storing

Er is op dit moment een storing bij T-Mobile/Tele2. Klanten van deze providers kunnen niet bellen naar lijnen van onze provider en omgekeerd. Dit is een landelijke storing en geldt voor een deel van de providers in Nederland. Sommige bestemmingen kunnen wel gebeld worden door/vanuit T-Mobile/Tele2.

We houden u op de hoogte over deze storing. Hieronder enkele berichten van onze provider.

We have received reports that T-Mobile subscribers can not reach Motto telephone numbers. We have escalated with the highest priority and will keep you informed.
Engineers have determined the root cause of the issue is due to an outage with upstream carrier Tele2 routing traffic between T-Mobile and Motto.
Tele2 has confirmed an outage is affecting voice traffic between multiple carriers including Motto. We will keep you updated as soon as we receive more information.
The Tele2 outage is affecting voice (both ISDN and IP) services nationwide. Updates to follow as soon as we receive more information.

 

Zie ook https://allestoringen.nl/

Storing bij VodavoneZiggo Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Storing bij VodafoneZiggo

Van onze provider kregen we door dat VodafoneZiggo een storing ondervindt. Wanneer u inbound gesprekken ontvangt van gebruikers binnen dit netwerk kan hier dus een slechte gesprekskwaliteit ervaren worden.

 

VodafoneZiggo reported connection and quality issues with their voice services minutes ago. Outbound traffic towards the affected destinations will be rerouted.

Storing bij onze voip provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Voip

Er is op dit moment een storing bij onze VoIP provider. Het is nog onduidelijk wat er aan de hand is maar lijkt op een grote storing met impact voor alle klanten.

Storing Vodafone Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Internetprovider storing

Er is sinds vanochtend 8:50 een storing bij Vodafone. Dat is hier te zien:

https://allestoringen.nl/storing/vodafone

U kunt hier hinder van ondervinden bij inbound gesprekken, aangeraden wordt om de beller te vragen op te hangen en nogmaals te bellen. Het grootste deel van de gesprekken gaan namelijk wel goed. 

Dit kan vanochtend ook invloeg hebben gehad op uitgaande gesprekken maar dat zou nu niet meer mogen voorkomen omdat dit verkeer door onze provider wordt omgeleid.

Storing bij onze VoIP provider Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - VoIP upstream

Er is op dit moment een storing bij onze VoIP provider. Om precies te zijn bij de provider van onze provider. De storing is qua downstream opgelost maar de upstream wordt nu aan gewerkt om dit op te lossen. Hierdoor kan het voorkomen dat u bij inbound gesprekken de klanten niet goed kan verstaan, de andere kant op moet het geluid wel goed zijn.

Storing bij NL-ix Status: Opgelost
Prioriteit - Kritiek Storingsdomein Overige - Overig

Er was een algemene storing in de NL-ix omgeving. Hierover loopt het verkeer van onze telecom provider. Deze storing was buiten het domein van Telforce en ook buiten het domein van onze provider. 

Alle Telforce klanten hebben hiervan hinder ondervonden. Gemeld werd dat vooral het uitgaande spraakverkeer verstoord werd. Hieronder de officiële melding van NL-ix:

 

From: Support <support@nl-ix.net>
Subject: [NL-ix Announce] Outage NL-ix
Date: 21 September 2018 at 12:06:59 CEST
 
Dear customers,

Unfortunately we are again experiencing issues due to MPLS crash in our network which seem to be related to earlier issues.

We are working to solve the issue as soon as possible.