Mitt exempel i slutet av förra inlägget om dataarkeologi, om hur jag återvunnit text från filer som raderats ur filsystemet med hjälp av dd
, ett standardkommando i *nixsystem, visade sig inte vara helt korrekt: de aktuella filerna var inte raderade, utan flyttade till en annan katalog så jag inte hittade dem, och jag tog för givet att de var raderade (fast det hade varit ganska enkelt att konstatera att så inte var fallet), så dd
-extraheringen blev mest en krånglig omväg. Den allmänna poängen att det inte räcker att radera filer ur filsystemet för att deras innehåll skall vara borta gäller dock fortfarande. Något ironiskt handlade de aktuella filerna om arkeologi med fatal utgång. De hörde till ett projekt jag höll på med i mitten av 90-talet om en påhittad virussjukdom som var ungefär som AIDS kliniskt men inte hade kopplingen till homosexuella eller narkomaner, som AIDS haft i västvärlden. I stället spreds viruset (till skillnad från HIV) via insektsvektor och smittade initialt en grupp amatörarkeologer på utflykt till Rökstenen ett par myggrika sommardagar.
I inlägget diskuterade jag BitCurator (BitCurator Team 2014), i praktiken en Linuxdistribution med en sammanställning av förinstallerade program för dataarkeologi, som nu väckt intresse hos svenska universitetsbibliotek och arkivinstitutioner. Jag anmärkte på att den var onödigt tung och klumpig. De har i stort sett adderat programmen till en standardinstallation av Ubuntu, en distribution som är gjord för att nya användare snabbt skall kunna komma igång med allmänna uppgifter. Frågan är om det är ett vettigt val när det gäller att bygga ett system skräddarsytt för att utföra en viss avgränsad uppgift så effektivt som möjligt.
Jag sökte i förråden till Arch Linux (Arch Linux Community 2014a), en distribution som tvärtom är inriktad på att vara minimalistisk i sitt grundutförande (namnet har dock inget med arkeologi att göra, vad jag förstått), och det visade sig att de flesta BitCurator-programmen (med några undantag, främst själva det specifika BitCurator-gränssnittet som automatiserar de vanligaste analysuppgifterna) fanns där, antingen i de officiella förråden eller via den s.k. Arch User Repository (AUR) – som inte innehåller färdiga paket utan beskrivningar för att kompilera paket, som kan laddas upp av vem som helst. Jag gjorde, med hjälp av skriptet Archiso (Arch Linux Community 2014b), i ordning en ISO-fil, som kan användas för att skapa en DVD eller USB-sticka för att köra eller installera systemet, med alla dessa program och Xfce som grafiskt gränssnitt.
ISO-filen jag skapade är i sin senaste version på 737 MB, att jämföra med 2,3 GB för motsvarande fil för BitCurator 0.9.12. En nyinstallation (i VirtualBox) från ISO-filen med alla programmen använde mindre än 3 GB diskutrymme och 407 MB RAM (utom buffertar/cache) omedelbart efter att systemet startats (med skrivbordsmiljön och ett terminalfönster igång); BitCurator tog upp 6,1 GB i rotsystemet och använde 814 MB RAM i en motsvarande situation. En av de mest minnesslukande processerna i båda fallen var clamd
, som är en daemon för antiviruspaketet ClamAV. Det är kanske inte så vanligt med antivirusprogram under Linux, men det kan vara motiverat i ett system gjort för att avbilda och analysera främmande diskar, som ofta kan komma från Windowssystem (och sedan kanske kommer att göras åtminstone delvis tillgängliga via just sådana system).
Kurationsprogrammen i Arch verkar fungera så långt jag tittat på dem. Några exempel:
- Guymager kan skapa diskavbildningar, antingen ”råa” avbildningar som de som skapas av
dd
eller i specialiserade format anpassade för bl.a. rättsliga undersökningar (Encase, AFF) med stöd för metadata, komprimering och kryptering. - libewf, afflib är bibliotek och verktyg för att hantera avbildningar i de senare formaten, t.ex. montera dem i filsystemet.
- bulk_extractor kan användas för att söka igenom en avbildning (även komprimerade filer i avbildningen genomsöks) efter t.ex. telefonnummer, e-postadresser och URL:er i förening med egendefinierade listor över reguljära uttryck och generera statistik över träffar.
- Recoll kan skapa index över alla filer i en viss sökväg för att snabbt kunna söka igenom dem efter nyckelord eller fritext. Det kan krävas tilläggsprogram för att hantera vissa filformat, t.ex. behövs antiword (som också finns i Archförråden) för Worddokument.
- Gtkhash lägger till en flik för beräkning av kontrollsummor i egenskapsdialogrutan för filer i filhanterare som Nautilus i GNOME eller Thunar i Xfce.
- Sleuthkit innehåller en rad olika verktyg för att undersöka avbildningar, filsystem och vanliga filer.
- Exiftool hanterar metadata för bl.a. bildfiler.
- dcfldd är en variant av
dd
med utökade funktioner som är avsedda att underlätta användning vid rättsliga utredningar, t.ex. beräkning av kontrollsummor.
Referenser
Arch Linux Community. 2014a. ”Package database”. https://www.archlinux.org/packages/.
———. 2014b. ”Archiso”. https://wiki.archlinux.org/index.php/Archiso.
BitCurator Team. 2014. ”Software”. http://wiki.bitcurator.net/index.php?title=Software.