Was ist die TrID-Datenbank?
Die Datenbank TrID enthält Dateisignaturen von über 10000 Dateitypen. Eine Dateisignatur kann verwendet werden, um das Dateiformat zu bestimmen, ob es sich um eine .DOC-Datei oder eine .TXT-Datei handelt.
Die Datenbank wird laufend aktualisiert und erweitert. Aufgrund der großen Datenbank kann eine unbekannte Datei sehr genau analysiert werden. Hierfür steht auch ein 'Online TrID File Identifier' zur Verfügung, der die zu analysierende Datei einliest und mit der Datenbank abgleicht. Die Ergebnisse werden in der Reihenfolge der höchsten Wahrscheinlichkeit dargestellt.
TrID wurde 2004 von Marco Pontello (Italien) ins Leben gerufen.
Die Identifizierung des Dateityps anhand der Dateisignatur ist genauer als anhand der Dateierweiterung. Bitte lesen Sie auch den nächsten Absatz:
So bestimmen Sie das Dateiformat
Das Format einer Datei, also der Dateityp, lässt sich durch die folgenden drei Merkmale bestimmen:
- Dateiname (Dateierweiterung)
Am häufigsten wird das Dateiformat durch die Dateierweiterung bestimmt. Die Dateiformatkennung steht nach dem letzten Punkt des Dateinamens. Da diese Dateinamenerweiterungen in alten Betriebssystemen auf drei Zeichen beschränkt waren, werden auch heute noch die meisten Dateiformate durch eine ein- bis dreistellige Kennung identifiziert, z. .H oder .DOC.
Die Bestimmung des Dateityps anhand der Dateierweiterung ist nicht immer genau, da verschiedene Formate dieselbe Dateierweiterung verwenden, der Benutzer eine Dateierweiterung versehentlich umbenennen kann und aktuelle Windows-Versionen die Dateierweiterung maskieren und Viren (z. B. 'photo.jpg.exe') können sich unter 'photo.jpg' verstecken. - Dateiinhalt (Dateisignatur)
Oft beginnt der Inhalt einer Datei immer mit der gleichen Zeichenkette. Wenn Sie z.B. eine PDF-Datei mit einem Texteditor, die Datei beginnt mit '% PDF-1'. Die ersten Zeichen in einer PNG-Datei sind dagegen 'â° PNG'. Da man anhand solcher definierter Zeichenfolgen den Dateityp viel genauer diagnostizieren kann als mit der Dateiendung, werden diese Zeichenfolgen auch Dateisignaturen oder 'magische Zahlen' genannt.
Die TrID Datenbank enthält Dateisignaturen und zugehörige Dateitypen. - Metadaten (MIME-Typ)
Die Bestimmung des Dateityps mittels Mehrzweck-Internet Mail Extentions ist zwar am genauesten, aber die Metadaten müssen separat im Header übertragen werden.
Wie können Dateisignaturen angezeigt werden?
Dateisignaturen sind Daten, die zum Identifizieren oder Verifizieren eines Dateityps verwendet werden. Solche Signaturen werden auch als magische Zahlen bezeichnet und können in einem der folgenden Formate dargestellt werden:
- HEX: Ein Byte (8 Bit) wird als zweistellige Zahl mit 16 Stellen (0, ..., 9, A, ..., F) dargestellt (Hexadezimalsystem )
Wenn Sie eine PDF-Datei in einem HEX-Editor öffnen, beginnt sie mit der Zeichenfolge 25 50 44 46 2D 31 2E. - ISO 8859-1: Text in 8-Bit-Zeichenkodierung
Wenn Sie eine PDF-Datei in einem normalen Texteditor öffnen, beginnt sie mit der Zeichenfolge %PDF-1. - ASCII: 7-Bit-Zeichenkodierung, die genau dem unteren Bereich von ISO 8859-1 (von 32 bis 126) entspricht.
Wenn Sie eine PDF-Datei in einem ASCII-Texteditor öffnen , es beginnt mit der Zeichenfolge % PDF-1.