Server en onderhoud statusmeldingen
13-01-2012 - Webserver onderhoud
De webserver is sinds de migratie naar onze huidige hosting provider True een beetje uit zijn voegen aan het groeien wat betreft schijfruimte. De database, zoekindexen, sessie data, etc. het werd allemaal een beetje krap op de huidige schijf indeling. Dankzij het virtuele platform, Highlander, is het bijschalen van resources makkelijk te realiseren. Een verdubbeling van de schijfruimte is inmiddels doorgevoerd. Vanaf 22:00 gaan wij deze nieuwe schijfruimte voorzien van een berg nullen en enen door wat data te verplaatsen en opnieuw in te richten. Hierdoor is het mogelijk dat de website, of delen hiervan, kort niet bereikbaar zijn.
Tevens gebruiken we dit onderhoudsmoment om wat pakketten van updates te voorzien. Freebsd 9.0 is nog maar een paar dagen uit. We hebben er uiteraard alle vertrouwen in dat dit stabiel is, toch hebben we besloten deze update nog even uit te stellen om eventuele kinderziektes te voorkomen.
23-12-2011 - Mail en development server eindelijk met pensioen
Het stond al een tijdje op de @todo list. Het vervangen van de mail/ development server door een dit jaar aangeschafte Dell R210. Het nadeel van een nieuwe server, nieuwe techniek/software en nieuwe kennis is dat je het al snel weer te mooi wilt maken dan eigenlijk haalbaar is.
De huidige mail/ontwikkel server wil nu toch echt met pensioen. Hij liet dit merken door in het begin van het jaar zijn Raid Controller kapot te maken, recentelijk nog een harde schijf en nu begint ook de tweede schijf die erin hangt foutmeldingen te geven. We weten niet precies hoe oud deze machine is, aangezien we deze lang geleden, uit het FasterForward tijdperk, in bruikleen hebben gekregen en na afschrijving van FasterForward mochten houden. Gezien de hardware en een vaag stickertje waarop we denken dat '2003' staat, hebben we de leeftijd geschat op 8 jaar, kortom een mooie leeftijd om te genieten van een welverdiende rust.
Omdat die nieuwe machine nog steeds niet helemaal ingericht is zoals we willen is er gekozen voor de simpele aanpak. We nemen de huidige config over op de nieuwe Dell server en gaan die vast inzetten voordat het echt stuk gaat. Omdat we gebruik maken van het FreeBSD Jail systeem, is dit geen probleem. Simpelweg een nieuwe jail aanmaken voor deze oude configuratie, die naast de jails van de nieuwe setup draait, zodat het elkaar niet in de weg zit.
Vanavond rond 21:00 zal de mail/development server vervangen worden door de nieuwe Dell en om die reden is mailen rond die tijd tijdelijk niet mogelijk. Aangezien ook alle uitgaande e-mail via deze server loopt, kunnen de mailtjes verstuurd vanaf de webserver niet afgeleverd worden. Uiteraard blijven deze in een queue staan, dus zodra de nieuwe server up is, zullen de mailtjes alsnog afgeleverd worden.
01-12-2011 - pfz.nl grotendeels onbereikbaar
Vanmorgen, in de auto uiteraard, werd ik gebeld dat de website wat bleek zag, als in een witte pagina met een Internal Server Error header. In de eerste instantie kreeg Apache de schuld, maar na een kort onderzoek bleek dat het forum nog wel reageerde, alleen onze eigen applicatie niet meer. Een ander logfile werd toen geraadpleegd om te kijken waarom de applicatie niet wilde starten en dat logfile was opvallend leeg. Wat wel opviel was dat die logfile een afwijkende owner had, wat meteen de oorzaak was van het probleem, de webapplicatie kon niet schrijven naar het logbestand. Een `sudo chown` was dus voldoende om de website beter te maken.
De grote vraag bleef toen "hoe kon dat bestand de verkeerde owner hebben?".
Het logbestand roteert dagelijks en die rotatie wordt door de webapplicatie gedaan, dus het bestand zou ook de user waaronder de webapplicatie draait als owner moeten hebben. Zouden we dan een bug in apache hebben ontdekt? Tot we ons bedachten dat ook de cronjobs gebruik maken van deze log files en dus ook het gebruik maken van dezelfde code voor de logrotatie. Een recent toegevoegde cronjob draaide onder de verkeerde user en blijkbaar was dit script diegene die vandaag als eerste de logrotatie heeft uitgevoerd. Gevolg: de webapplicatie en de overige cronjobs konden niet meer naar dit logbestand schrijven en raakten toen in paniek. Dit euvel is uiteraard verholpen.
26-10-2011 - Disk stuk
Ons monitoring systeem geeft sinds vannacht aan dat 1 van de schijven in de mail-, en ontwikkelserver er geen zin meer in heeft. Toevallig ben ik vanmiddag in Amsterdam, dus een extra ritje datacentrum om de schijf te vervangen staat op de planning. Ik ga er vanuit dat niemand hier iets van gaat merken, aangezien het om een hot swapable schijf gaat.
24-06-2011 - Fysieke verhuizing mail-/ ontwikkelserver
Op 24 juni zal de huidige mail- en ontwikkelserver herenigd worden met de webserver, met andere woorden ook deze server zal vanaf dan gehost worden door True.
Het oorspronkelijke plan was om deze server te vervangen door 1 van de recentelijk aangeschafte Dell servers (R210 series), maar we zijn nog niet helemaal klaar met het inrichten van deze machine. Het huidige colocatie contract loopt echter af op 30 juni, dus zit er niets anders op dan eerst deze machine naar True te verhuizen en hem later alsnog te vervangen.
19-06-2011 - Delen van de website onbereikbaar
Delen van de website waren deze avond slecht/ niet te bereiken en leverde meestal een statuscode 500 op. Dit alles had te maken met een volgelopen schijf door een iets te enthousiast logscriptje. Dit scriptje is inmiddels voorzien van een muilkorf en is opgesloten in zijn hok. Bij de volgende dev-dag zullen we dit scriptje beter africhten om dit in de toekomst te voorkomen.
21-04-2011 - Website op zwart
Ik werd net uit een vergadering gebeld dat PFZ.nl eruit lag. Het begon met meldingen over het niet kunnen verbinden met de database, waarna de website al snel helemaal niet meer te bereiken was.
Ook via SSH ging het allemaal heel traag, een load van boven de 30 en een flinke lijst apache processen had hier vast iets mee te maken. Apache heeft een schop gehad en de rust lijkt nu weer wedergekeerd te zijn. Na de vergadering eens kijken of we kunnen achterhalen waarom het allemaal omgevallen is.
26-03-2011 - Storing mail- en ontwikkelserver
Op dit moment lijkt het erop dat de mail- en ontwikkelservers de handdoek in de ring hebben gegooid en mokkend in een hoekje zitten te nietsen. Antwoord geven doen ze nog maar heel soms en met dat antwoord kunnen we eigenlijk niets. Via SSH is die machine ook niet meer te bereiken, dus dat wordt een retourtje datacentrum. Het gaat alleen niet meer lukken omdat vandaag te doen.
Aangezien ook alle uitgaande e-mail via deze server loopt, kunnen de mailtjes verstuurd vanaf de webserver niet afgeleverd worden. Uiteraard blijven deze in een queue staat, dus zodra we de klachten van de mailserver hebben aangehoord en hem weer tevreden hebben gesteld, zullen de mailtjes alsnog afgeleverd worden.
Update 27-03-2011 Ik ben inmiddels ter plaatsen op de crime scene. Zo eerst even testen hoe het gesteld is met de koffievoorraad van het datacentrum en dan zullen we eens onderzoeken wat er mis is.
Na aansluiten van een monitor, wezen de foutmeldingen op de terminal dat het probleem waarschijnlijk zit in de hardeschijven en/of de raid controller die er tussen zit. Na een reboot van de machine werd dit bevestigd, de machine kon de raidcontroller niet meer detecteren en kwam dus niet heel ver in het opstart proces. De server wordt nu achterin de auto geladen om hem thuis te onderzoeken en waar mogelijk te repareren. To be continued...
Update 02-04-2011 Na wat onderzoek bleek dat de raid controller overleden was. Gelukkig was een 2de hands identiek model al snel gevonden en door de snelle afhandeling van de verkoper kwam er woensdag een pakketje binnen op kantoor. Na het plaatsen van deze controller werkte deze machine weer zoals van hem verwacht wordt.
Gister is hij weer bijgehangen in het datacentrum en vannacht zijn alle services weer in gebruik genomen. Vanaf nu gaat e-mail weer via deze machine en ook de ontwikkel omgeving is weer te bereiken.
19-03-2011 - Kernel update webserver
Aanstaande zaterdag zal de webserver enige tijd offline gaan, vanwege een update van het besturingssyteem. Onze servers draaien FreeBSD, waarvan onlangs versie 8.2 uitgekomen is. De mail-, backup- en ontwikkelserver zijn al enige tijd voorzien van deze update en zaterdag is de webserver aan de beurt. Aangezien we dan toch bezig zijn met updaten, zullen we ook wat software pakketten van een update voorzien. Het onderhoud zal rond 10:30 starten en zal naar verwachting niet langer dan een uur duren.
update: Een falend wekker management zorgde ervoor dat we iets later begonnen aan de update. De kernel update zelf is inmiddels helemaal afgerond. Er worden nog wat pakketten van een update voorzien, maar dat zou verder geen invloed meer mogen hebben op het online zijn van de website.

