Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing VoIP provider

Er is een algemene storing bij één van onze VoIP providers. Inbound en outbound telefonie werkt niet meer.

14:04 - Onze monitoring heeft waargenomen dat SIP trunks van alle klanten er uit liggen, ook het control panel van onze provider is onbereikbaar en we merken dat de telefonie voor onze klanten zowel inbound als outbound verstoord is, we proberen nu contact te krijgen met onze provider. We houden u op de hoogte via deze pagina.

14:23 - De storing is ook bekend bij onze provider en ze hebben hierover op hun statuspagina het volgende aangegeven:

         Investigating - Op dit moment is er een verstoring gaande in een van onze datacenters waarbij meerdere diensten geraakt worden. Onze engineers zijn de verstoring aan het onderzoeken.

14:49 - Onze provider geeft door:

         Er is sprake van een stroomonderbreking in het datacenter en zijn aan het onderzoeken hoe we de diensten zo snel mogelijk kunnen herstellen.

14:50 - We merken dat onze eigen telefooncentrale voor support (0153010405) weer bereikbaar is

15:19 -  Update provider:

        Identified - Een deel van de diensten hebben onze engineers inmiddels kunnen herstellen. Helaas zijn nog niet alle diensten terug online. Onze engineers zijn druk bezig om alles weer online te krijgen.

15:50 - Voor bepaalde klanten zijn we bezig backup trunks in te stellen voor outbound. Neem contact met ons op via whatsapp indien u dit nodig heeft: +31153010405. Let wel voor inbound is op dit moment geen backup mogelijk. 

16:14 - Van onze provider:

       Onze engineers hebben alle diensten kunnen herstellen door diensten te her-routeren naar een ander datacenter. Op dit moment zijn alle diensten weer opnieuw aan het registreren en online komen. Gezien het grote aantal diensten dat tegelijkertijd aan het aanmelden is kan het even duren voordat alles weer online is.

16:30 - Alle diensten zijn weer hersteld. Er volgt later nog een post-mortem analyse die u kunt vinden bij de opgeloste storingen. Voorlopige update van provider:
 
       Onze engineers hebben alle diensten kunnen herstellen door diensten te her-routeren naar een ander datacenter. Op dit moment zijn alle diensten weer opnieuw aan het registreren en online komen. Gezien het grote aantal diensten dat tegelijkertijd aan het aanmelden is kan het even duren voordat alles weer online is.

17:15 - Update provider:

       Onze engineers zijn nog druk bezig om alle diensten weer online te krijgen. Veel diensten hebben we inmiddels weer kunnen herstellen maar helaas is nog niet alles terug.

18:09 - 20:41 -  Update provider:

       Onze engineers hebben ongeveer 90% van de dienstverlening weten te herstellen. De grootste impact zit momenteel nog op de VPS-diensten.

       Onze engineers hebben alle diensten weer volledig kunnen herstellen. We blijven de diensten monitoren.

29-06 8:54 - Update provider:

      We hebben de diensten de afgelopen nacht nauwlettend in de gaten gehouden, hier zijn geen bijzonderheden uitgekomen. Deze ochtend komen er nog wel een aantal meldingen binnen. Het is momenteel nog onbekend of deze meldingen gerelateerd zijn aan deze verstoring. Onze engineers zijn dit momenteel aan het onderzoeken.

9:20 - Update provider:

     Er is nog een nasleep na aanleiding van de stroomverstoring van gisteren. Helaas zijn er deze ochtend ook stroomonderbrekingen geweest welke een mogelijke impact kan hebben op onder andere kwaliteit van gesprekken. Door de werkzaamheden welke we gisteren hebben uitgevoerd is de impact beperkt.

10:36 - Update provider:

      Er zijn geen nieuwe onderbrekingen meer geconstateerd. Individuele meldingen die een nasleep zijn van de eerdere verstoring worden afzonderlijk in behandeling genomen. We blijven de diensten nauwlettend in de gaten houden.

30-06 16:52 - Update provider:

     De afgelopen uren zijn al onze diensten stabiel gebleven. Nadat de oorspronkelijke verstoring was verholpen, hebben zich helaas nog enkele vervolgstoringen voorgedaan die hieruit zijn ontstaan. Deze meldingen hebben we op individuele basis opgepakt, in onderzoek genomen en inmiddels opgelost.

We voeren een uitgebreid onderzoek uit naar de oorzaak van deze verstoring, hoe deze heeft kunnen ontstaan en welke maatregelen we kunnen nemen om herhaling te voorkomen. De bevindingen hiervan delen we via de statuspagina. Gezien de impact en omvang van de verstoring streven we ernaar dit onderzoek binnen vijf werkdagen af te ronden.

Storing met telefonie Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing met telefonie

Meerdere klanten hebben audio issues gemeld, de oorzaak is nog onbekend, we hebben dit nu gemeld bij onze provider. Onderzoek loopt.

Update 10:10 - op allestoringen.nl zijn ook pieken te zien, o.a. bij AMS IX (belangrijk internetknooppunt)

Update 10:15 - onze telefonie provider is nu ook door andere partijen gebeld en heeft dit ook op hun statuspagina vermeld als algemene storing.

Update 10:17 - de eerste gesprekken komen weer storingsvrij binnen

Update 10:40 - onze provider meld de storing bij ons af, de oorzaak zat in de AMS IX, dus bijna heel Nederland had hier last van. Officiele post-mortem analyse volgt nog en zullen we op een later moment delen op deze pagina. We sluiten nu deze storing.

Onderhoud Session Border Controller Stare: incidente rezolvate
Prioritate - Scăzută Afectează Altele - Onderhoud Session Border Controller

We voeren onderhoud uit op onze Session Border Controller waar onze clusterklanten gebruik van maken. Geschatte onderhoudswindow is een uur.

 

Update: Onderhoud is afgerond. Werkzaamheden liepen iets uit. Alle outbound en inbound routes zijn getest.

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing VoIP provider

Er is een algemene storing bij één van onze VoIP providers. Dit veroorzaakt merkbare haperingen in het geluid, vooral tijdens inbound gesprekken.

10:50 - Probleem is voor het eerst gemeld.

11:45 - Probleem opgelost. Oorzaak is nog onbekend.

Datacenter storing Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing netwerkverbinding datacenter

Er is een algemene netwerkstoring in de verbinding met onze datacenters in Amsterdam. Het is nog onduidelijk of één of meerdere datacenters getroffen zijn. Hierdoor kan het zijn dat er sprake is van haperende gesprekken.

 

13:34 - Start incident

13:48 - Gemeld bij provider, is al bekend en zijn er mee bezig

14:10 -  Opgelost, er was sprake van een DDOS aanval door een machine (niet van ons!) binnen één van de datacenters waardoor de transit verbindingen vol liepen met traffic. 

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing VoIP provider

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen er geen uitgaande gesprekken niet tot stand komen.

 

14:29 - Probleem gemeld

14:37 - Er wordt gewerkt aan een oplossing bij de provider

15:55 - Uitgaand bellen is weer volledig mogelijk. We blijven de situatie monitoren. Terugkoppeling over de storing volgt nog.

20-06-2024 : Terugkoppeling provider:

 

Oorzaak van de verstoring is teruggeleid naar een menselijke aanpassing dmv het toevoegen van een VLAN aan het Cloud Voice platform. Dit had een onverwacht effect data als gevolg van mirroring de destination adressen werden gewist. In een test omgeving konden we dit niet reproduceren en onderzoek loopt waarom dit niet gereproduceerd kan worden in test-omgeving.

  • De betreffende afdeling welke verantwoordelijk was voor de aanpassing is gewezen op de interne procedure voor het doorvoeren van aanpassingen. Daarnaast is de procedure geëvalueerd en hierbij hebben we geconcludeerd dat de procedure zoals vastgelegd de verstoring had voorkomen, wanneer deze was gevolgd.
  • Aangescherpt wekelijks Change Advisory Board overleg om alle potentiële changes die productie omgevingen raakt buiten kantoortijden te plannen.

14:27 Monitoring detecteerde problemen met voice-devices in het ams3 DataCenter.

14:28 Monitoring detecteerde meerdere voice-devices als onbereikbaar in het ams3 DataCenter.

14:30 Een war room werd opgericht met alle voice engineers en cloud engineers, CTO en MD.

14:32 Een wijziging welke had plaats gevonden op het Cloud platform werd teruggedraaid.

14:40 Main Issue leek verholpen. Maar uitgaand verkeer bleef problemen behouden

15:40: Probleem gedetecteerd en oplossing toegepast.

15:45 Uitgaand verkeer volledig terug hersteld.

17:12 Additioneel probleem gemeld met de VAMO-oplossing (in gebruik op Swyx platform voor enkele klanten)

17:15 Nieuwe volledige registratie push van de VAMO-oplossing uitgevoerd.

17:16: Alle problemen zijn hersteld.

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing inbound en outbound telefonie

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen er geen inkomende en uitgaande gesprekken niet tot stand komen.

 

13:49 - Probleem gemeld

14:08 - Er wordt gewerkt aan een oplossing bij de provider

14:40 - Update van onze provider: Het probleem is nog altijd in onderzoek. De geschatte oplostijd is momenteel onbekend. We werken eraan om dit zo snel mogelijk te verhelpen en zullen een update plaatsen zodra er meer bekend is.

15:20 - Update van onze provider: Het verkeer is gedeeltelijk hersteld en we werken verder aan volledig herstel. We blijven de situatie monitoren totdat alles volledig hersteld is.

15:45 - Het verkeer is hersteld en wordt in monitoring gehouden.

Oorzaak:

Oorzaak van de verstoring is herleid naar een menselijke aanpassing en fout, waarbij de interne procedures niet zijn gevolgd. De aanpassing was niet gedocumenteerd en werd uitgevoerd tijdens kantoortijden. Door het ontbreken van de vastlegging van de aanpassing heeft de oplossing langer geduurd dan noodzakelijk.

Actie:

De betreffende afdeling welke verantwoordelijk was voor de aanpassing is gewezen op de interne procedure voor het doorvoeren van aanpassingen. Daarnaast is de procedure geëvalueerd en hierbij hebben we geconcludeerd dat de procedure zoals vastgelegd de verstoring had voorkomen, wanneer deze was gevolgd.

Datacenter storing Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing Digital Realty

Er is een algemene storing bij één van onze datacenters (Digital Realty). Hierdoor is het wellicht niet mogelijk om in te loggen op Telforce en ook gesprekken kunnen hierdoor afgebroken worden.

 

12:00 - Start incident

12:05 - Er wordt gewerkt aan een oplossing bij de provider

12:20 - Diensten zijn weer hersteld maar onderzoek loopt nog

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing inbound en outbound telefonie

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen de meeste uitgaande gesprekken niet tot stand komen, het lijkt er op dat het probleem al opgelost is maar mocht het toch aanblijven neem dan contact op via support@telforce.nl

 

15:45 - Probleem gemeld

16:00 - Er wordt gewerkt aan een oplossing bij de provider

16:08 - De diensten zijn langzaam bezig te herstellen

17:04 - De storing blijkt betrekking te hebben op slechts 1 van de datacenterlocaties van onze provider, men is hier met man en macht mee bezig om het op te lossen. Sommige van onze klanten hebben een verbinding met een ander datacenter en hebben geluk en ondervinden nauwelijks problemen.

17:17 - Er wordt nog steeds onderzoek gedaan maar volgens onze provider speelt dit probleem nu nog maar bij minder dan 1% van de klanten.

18:14 - Bijna alle diensten zijn hersteld. Echter er zijn nog wel problemen met VAMO simkaarten. Hier wordt op dit moment aan gewerkt om te herstellen.

21:04 - Alle diensten zijn hersteld. Analyse van de achterliggende oorzaak wordt nog gedaan.

 

3-8 - root cause analyse:

 

In de middag van 31-07-2023 omstreeks 15:30 uur is er problematiek ontstaan rondom trunk-registraties waardoor de volgende platformen (3CX, Swyx) niet meer bereikbaar waren en bij klanten/partners die uitsluitend trunks afnemen ook geen verkeer meer mogelijk was. Hierdoor waren onze support afdelingen eveneens niet bereikbaar omdat dit verkeer intern via één 3CX centrale verloopt. De overige afdelingen (bv Sales) waren wel bereikbaar omdat deze rechtstreeks op Dstny UCaaS bereikbaar zijn. Om 15:45 uur werd de 3CX centrale voor het support verkeer verwijderd en waren onze support afdelingen weer direct telefonisch bereikbaar.

Na eerste analyse bleek een mass storage device, waar o.a. onze 3CX en Swyx platformen gebruik van maken, in één van onze datacenters, een zeer hoge piekbelasting te hebben.

Verder bleek er meer aan de hand dan alleen problematiek rondom trunk registraties, de volledige diensten in het betreffende datacenter (AMS3) hadden problemen door de mass storage latency: database nodes, Homeproxy, register offload proxies, Asterisk backends, FLUX, etc.

Doordat de Homeproxy gecrashed was met een kernel panic in AMS3 konden zowel INVITEs als REGISTERs aan die kant niet afgehandeld worden. Deze is vervolgens manueel geherstart door onze engineers. Door de herstart van de applicatie werd een ontbrekende database configuratie op deze proxy ontdekt hetgeen een probleem vormde voor het afhandelen van REGISTERs. De register offload proxies in AMS3 hadden ook een kernel panic en ook deze zijn vervolgens manueel herstart door onze engineers.

De ontbrekende database configuratie op deze proxy was helaas het gevolg van een human-error van één maand eerder bleek bij latere analyse. De ontbrekende data in de database werd handmatig toegevoegd tussen 17:05 en 17:15 uur waarna alle trunk registraties zonder verdere problemen verliepen.

Vervolgens bleek telefonie verkeer die gebruik maakt van onze FMU (Vast-Mobiele integratie) niet meer te functioneren. Uit kortstondige analyse bleek dat een server voor het functioneren van de FMU niet meer te bereiken was omdat het file system van de betreffende server in read-only mode was terecht gekomen. Dit bleek niet onmiddellijk hersteld te kunnen worden en daarom werd uiteindelijk besloten om een handmatig fail-over uit te voeren naar het back-up systeem op 18:50 hetgeen succesvol verliep waardoor ook het FMU gerelateerde verkeer werd hersteld. Het file system van de primary server werd op 1/8 hersteld en het verkeer op de fail-over werd op 1/8 om 19:00 uur weer teruggezet naar de primary server zodat redundantie weer aanwezig is voor de FMU configuratie.

Op 2/8 en 3/8 is er nog een nasleep van issues is geweest op enkele  Swyxservers. De issues zijn bijna allemaal opgelost na een herstart van de betreffende Swyxservers maar heeft impact gehad op de bereikbaarheid.

  • Root Cause Identification

Een opruimactie op een legacy virtualisatie platform in de ochtend van 31/7 heeft een trigger veroorzaakt waardoor de mass  storage in ons data center AMS3 rond 15:30 enkele minuten een  extreem hoge latency heeft gehad.

Dit heeft ervoor gezorgd dat verschillende diensten in AMS3, waaronder de SBC en enkele SIP register nodes een kernel panic kregen. Na manuele herstart van de getroffen processen heeft de ontbrekende database configuratie ervoor gezorgd dat in AMS3 nog altijd problemen waren met het verwerken van SIP registraties. Ook het FMU platform maakt gebruikt van dezelfde (redundante) storage en dit verklaart ook dat het file system van de server voor het afhandelen van FMU API-calls corrupt werd

  • Improvements/Lessons Learned
  • De virtualisatie omgeving is verouderd en wordt geleidelijk uitgefaseerd en omgezet naar VMware.
  • We gaan onderzoeken of de mass storage gesplitst kan worden (door devices toe te voegen) zodat niet alle platformen op dezelfde storage gekoppeld zijn en de impact in de toekomst kleiner van omvang is.
  • Structuur voor de configuratie in de database is aangepast zodat hier beter beheer voor mogelijk is en de human error niet meer kan voorkomen.

Spoedonderhoud Stare: incidente rezolvate
Prioritate - Ridicată Afectează Sistem - Virtualisatieplatform

Naar aanleiding van het onderhoud van zondag is er een functionaliteitsprobleem ontstaan met een netwerkverbinding naar onze NFS omgeving. Deze wordt vanavond opgelost. Tevens wordt meteen een upgrade naar de nieiuwste versie van het virtualisatieplatform die al op de planning stond. Tenslotte wordt de originele server teruggeplaatst waarvoor er op 20-08-2022 een storing heeft plaatsgevonden. 

Storing virtualisatieplatform Stare: incidente rezolvate
Prioritate - Critică Afectează Sistem - Storing virtualisatieplatform

Één van onze servers is getroffen door een hardwarestoring. Als gevolg hiervan is er downtime voor enkele van onze klanten. Na diagnose bleek het moederbord van de server defect. Tijdelijk is de gehele server vervangen in afwachting van een spare part replacement.

Onderhoud virtualisatieplatform Stare: incidente rezolvate
Prioritate - Medie Afectează Sistem - Virtualisatieplatform

We doen een upgrade van ons virtualisatieplatform naar een nieuwe versie. Dit is een tussenstap, binnenkort volgt er nog een update.

Storing Amsterdam IX Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Internet

Algemene storing bij Amsterdam IX. Te zien op allestoringen.nl

 

https://www.ams-ix.net/ams

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - VoiP provider

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen de meeste uitgaande gesprekken niet tot stand komen, het lijkt er op dat het probleem al opgelost is maar mocht het toch aanblijven neem dan contact op via support@telforce.nl

 

14:10 - Probleem gemeld

14:21 - Er wordt gewerkt aan een oplossing bij de provider

14:37 - Oplossing is uitgevoerd en monitoring vindt nu plaats

16:50 - Geen storingen meer gemeld en afgemeld door provider

Storing VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - VoIP

Er is een algemene storing bij één van onze VoIP providers. Hierdoor kunnen sommige inkomende en uitgaande gesprekken een audio probleem ondervinden, vaak is er dan stilte te horen en duurt het een tijd voordat het gesprek tot stand komt of komt het helemaal niet tot stand. We hebben de storing bij onze VoIP provider gemeld en er wordt aan gewerkt. Oplostijd nog onbekend.

 

15:28 - De oorzaak is nu bekend en men werkt aan een oplossing. Verwachte oplostijd nog niet bekend.

17:30 - Het probleem zou opgelost moeten zijn

Storing SIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - VoIP

Er is een algemene storing bij één van onze SIP providers. Hierdoor kunnen sommige klanten niet uitbellen. We hebben de storing bij onze SIP provider gemeld en er wordt aan gewerkt. Oplostijd nog onbekend.

One way audio issues Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Degraded service

Er spelen sinds vanochtend 10:45 problemen bij verbindingen via één van onze VoIP providers bij klanten die zover we nu kunnen zien allemaal internet hebben via KPN. Oplostijd onbekend.

Grote storing bij KPN Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Grote storing bij KPN

Er is een grote storing bij KPN waardoor in grote delen van Nederland niet van en naar KPN verbindingen gebeld kan worden. o.a. 112 is ook nietbereikbaar.

Storing T-Mobile Tele2 Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - T-Mobile Tele2 storing

Er is op dit moment een storing bij T-Mobile/Tele2. Klanten van deze providers kunnen niet bellen naar lijnen van onze provider en omgekeerd. Dit is een landelijke storing en geldt voor een deel van de providers in Nederland. Sommige bestemmingen kunnen wel gebeld worden door/vanuit T-Mobile/Tele2.

We houden u op de hoogte over deze storing. Hieronder enkele berichten van onze provider.

We have received reports that T-Mobile subscribers can not reach Motto telephone numbers. We have escalated with the highest priority and will keep you informed.
Engineers have determined the root cause of the issue is due to an outage with upstream carrier Tele2 routing traffic between T-Mobile and Motto.
Tele2 has confirmed an outage is affecting voice traffic between multiple carriers including Motto. We will keep you updated as soon as we receive more information.
The Tele2 outage is affecting voice (both ISDN and IP) services nationwide. Updates to follow as soon as we receive more information.

 

Zie ook https://allestoringen.nl/

Storing bij VodavoneZiggo Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Storing bij VodafoneZiggo

Van onze provider kregen we door dat VodafoneZiggo een storing ondervindt. Wanneer u inbound gesprekken ontvangt van gebruikers binnen dit netwerk kan hier dus een slechte gesprekskwaliteit ervaren worden.

 

VodafoneZiggo reported connection and quality issues with their voice services minutes ago. Outbound traffic towards the affected destinations will be rerouted.

Storing bij onze voip provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Voip

Er is op dit moment een storing bij onze VoIP provider. Het is nog onduidelijk wat er aan de hand is maar lijkt op een grote storing met impact voor alle klanten.

Storing Vodafone Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Internetprovider storing

Er is sinds vanochtend 8:50 een storing bij Vodafone. Dat is hier te zien:

https://allestoringen.nl/storing/vodafone

U kunt hier hinder van ondervinden bij inbound gesprekken, aangeraden wordt om de beller te vragen op te hangen en nogmaals te bellen. Het grootste deel van de gesprekken gaan namelijk wel goed. 

Dit kan vanochtend ook invloeg hebben gehad op uitgaande gesprekken maar dat zou nu niet meer mogen voorkomen omdat dit verkeer door onze provider wordt omgeleid.

Storing bij onze VoIP provider Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - VoIP upstream

Er is op dit moment een storing bij onze VoIP provider. Om precies te zijn bij de provider van onze provider. De storing is qua downstream opgelost maar de upstream wordt nu aan gewerkt om dit op te lossen. Hierdoor kan het voorkomen dat u bij inbound gesprekken de klanten niet goed kan verstaan, de andere kant op moet het geluid wel goed zijn.

Storing bij NL-ix Stare: incidente rezolvate
Prioritate - Critică Afectează Altele - Overig

Er was een algemene storing in de NL-ix omgeving. Hierover loopt het verkeer van onze telecom provider. Deze storing was buiten het domein van Telforce en ook buiten het domein van onze provider. 

Alle Telforce klanten hebben hiervan hinder ondervonden. Gemeld werd dat vooral het uitgaande spraakverkeer verstoord werd. Hieronder de officiële melding van NL-ix:

 

From: Support <support@nl-ix.net>
Subject: [NL-ix Announce] Outage NL-ix
Date: 21 September 2018 at 12:06:59 CEST
 
Dear customers,

Unfortunately we are again experiencing issues due to MPLS crash in our network which seem to be related to earlier issues.

We are working to solve the issue as soon as possible.