schema.org: Sieht so das Web 3.0 aus?

Hinweis: Diese Website dient nur noch als Archiv. Viele Artikel erklären Grundlagen und Techniken, die immer noch relevant für Webworker sind. Einige Artikel sind mittlerweile aber überholt, weil es andere, modernere Techniken gibt. Wenn ihr aktuelle Artikel über Webentwicklung sucht, möchten wir euch das Smashing Magazine (englischsprachig) ans Herz legen.

schema.org: Sieht so das Web 3.0 aus?

Jeden Tag werden allein in Deutschland weit über 100 Millionen Suchanfragen nur bei Google gestartet. Die ausgelieferten Ergebnisse basieren auf komplizierten Algorithmen, mit denen die Suchmaschine zwar die Relevanz einer Zeichenkette berechnen kann, deren Sinn ihr aber verborgen bleibt. Die Idee des Semantic Web und der weltweiten Vernetzung von Daten aufgrund ihrer Bedeutung ist jetzt über elf Jahre alt. In Zukunft könnte schema.org die passende Grundlage bieten. Henry Zeitler wirft einen Blick in die Sterne.

Das semantische Web steht für ein Konzept, das es Maschinen erlaubt, in menschlicher Sprache formulierte Informationen verarbeiten zu können. Dazu werden die vorhandenen Texte mit weiteren Daten ergänzt, die ihre Bedeutung (Semantik) eindeutig festlegen. Ein Beispiel wären »Chips«, die mit der Zuordnung <Lebensmittel> ergänzt werden, um sie von Computerchips unterscheiden zu können. Dabei konkurrieren derzeit drei Arten dieser Zusätze miteinander: RDFa (Resource Description Framework – in – attributes, eine Empfehlung des W3C), Microformat (z. B. hCard oder hAtom) und Microdata (eine HTML5-Spezifikation der WHATWG).

Am 2. Juni 2011 verkündeten die heiligen drei Könige der Suchmaschinen – Google, Yahoo! und Bing – in ungewohnter Eintracht die Unterstützung von schema.org und entfesselten erneut die Diskussion um RDFa, Microformat und Microdata. Die Einführung des Microdata-Formats wird dem User einen Grund zum Jubeln geben, einige Verfechter von RDFa und Microformat fühlen sich jedoch übergangen und so mancher Online-Journalist sieht sich in der Existenz bedroht. Verwirrt? Für einen kurzen Überblick folgt dem Stern ☆!

☆ Das semantische Web

Die Idee des Semantic Web wurde erstmalig von Tim Berners-Lee im Jahre 2001 beschrieben. Bedeutung und Zusammenhänge von textlichen Inhalten auf Internetseiten sollen den Maschinen zugänglich und verarbeitbar gemacht werden. Zum Beispiel kann der Crawler einer Suchmaschine anhand der Auszeichnung eines Textes mit <h3> zwar erkennen, dass es sich um eine Überschrift handelt und sie entsprechend werten, allerdings hat er keine Vorstellung von seiner Bedeutung. Durch den Einsatz von Annotationen (z. B. mit schema.org) sind Maschinen in der Lage, die textlichen Inhalte zu strukturieren und nach ihrer Bedeutung zu indizieren. Auf diese Weise können weltweit und sprachübergreifend Beziehungen zwischen Daten und Informationen geknüpft werden.

In dem nachfolgenden Video auf TED spricht Tim Berners-Lee über Linked Data und die Idee des Semantic Web: Tim Berners-Lee on the next Web

☆ Das semantische Web und seine Entwickler

Die Community rund um das Semantic Web ist im Streit um die Standardisierung der Syntax in verschiedene Lager gespalten. Es gibt Verfechter vom RDFa, Microdata und Microformats.

Mit der Entscheidung von Google, sich auf eine Technik zu konzentrieren, vergrößert sich die Kluft zwischen den Parteien. schema.org baut auf der Microdata-Syntax auf und dieses Markup wird nun von den Suchmaschinen bevorzugt behandelt. Dazu kommt, dass die unterschiedliche Syntax nicht gleichzeitig verwendet werden sollte, da es sonst zu einem Fehler im Parser der Suchmaschinen kommen kann und somit die Inhalte nicht richtig interpretiert werden. Google verspricht zwar, dass die anderen Formate noch berücksichtigt werden, empfiehlt aber einen Wechsel zu schema.org.

☆ Das semantische Web und schema.org

Schauen wir uns schema.org und seine Rich Snippets noch einmal etwas genauer an. Wie bereits erwähnt, entspricht die grundlegende Syntax von schema.org dem Format von Microdata. Ein einfaches Beispiel für die Verwendung des Markups sieht so aus:

<div itemscope itemtype="http://schema.org/Event">
<h3>Frohe </span itemprop="name">Weihnachten</span><h3>
<p>
...Und viele Geschenke vom <span itemprop="performers"
itemscope itemtype ="http://schema.org/Person"><span itemprop="name">
Christkind</span>
</span> wünschen euch allen die <span itemprop="attendees"
itemscope itemtype ="http://schema.org/Organization">Webkrauts
</span>!
</p>
</div>

Das Element mit dem Attribut itemscope umgibt den kompletten Informationsblock. Stößt der Parser der Suchmaschine auf dieses Attribut, so weiß er, dass es sich um ein Microdata-Format handelt und erwartet dann eine weiterführende URL. Diese in itemtype enthaltene URL verweist nun auf den entsprechenden Eintrag unter schema.org und vermittelt der Suchmaschine die Bedeutung der enthaltenen Information. In diesem Beispiel handelt es sich um einen Event. Die nachfolgenden Tags spezifizieren die einzelnen Informationen mit Hilfe von itemprop nach Bezeichnung (name), Ausführende Person (performer), Teilnehmer (attendees) und den Verschachtelungen mit wiederum ihren entsprechenden Spezifizierungen.
Ein gutes Tool, um die Implementierung zu prüfen und zu sehen, wie die rich snippet datas von den Suchmaschinen ausgelesen werden, bietet Google neuerdings selbst an. Das Rich Snippets Testing Tool in den Webmaster Tools.

Noch ein Beispiel, das häufig Anwendung findet, ist die Visitenkarte auf Internetseiten. Hier ist das Microformat hCard derzeit weit verbreitet. Um die unterschiedliche Arbeitsweise von schema.org und vCard aufzuzeigen, hier ein direkter Vergleich.

vCard:

<address class="vcard">
<span class="fn">Weihnachtsmann</span>
<span class="street-address">Christkindlweg 1</span>
<span class="postal-code">2412</span> <span class="locality">Nordpol</span>
E-mail: <a href="mailto:wunschliste@weihnachtsmann.gl" class="email">
wunschliste@weihnachtsmann.gl</a>
</address>

schema.org:

<address itemscope itemtype="http://schema.org/Person">
<span itemprop="name">Weihnachtsmann</span>
<div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress">
<span itemprop="streetAddress">Christkindlweg 1</span>
<span itemprop="postalCode">2412</span> <span itemprop="addressLocality">
Nordpol</span>
</div>
E-mail: <a href="mailto:wunschliste@weihnachtsmann.gl" itemprop="email">
wunschliste@weihnachtsmann.gl</a>
</address>

Da vCard mit Klassen arbeitet, können die Attribute direkt im Stylesheet weiterverwendet werden. Im Gegensatz dazu wird schema.org lediglich auf die HTML-Elemente aufgesattelt und dient somit nicht zusätzlich der Formatierung der Elemente.
Einen sehr guten Überblick über die Häufigkeit der Verwendung von hCard und schema.org in Internetseiten und deren Ranking gibt es auf der Seite von blekko.com in dem Artikel Sites using Schema.org vs sites using hCard microformat (Stand: 15. Sep 2011).

Eine detailierte Anleitung mit vielen praktischen Beispielen zur Verwendung von schema.org findet ihr in der Dokumentation.
schema.org startete mit 300 Schemas und am Anfang ist es schwierig, sich einen Überblick zu verschaffen. Aber bei den 300 Schemas soll es auch nicht bleiben. Der sogenannte Extension Mechanism macht schema.org zu einem offenen Standard und ermutigt Webmaster, eigene Schemas zu erstellen und zu implementieren. Diese können auf schema.org vorgestellt und dann vielleicht einmal zu einem festen Bestandteil des Vokabulars werden.
Es zeigt sich, dass die drei Institutionen hinter schema.org großes Interesse daran haben, Synergien zu entwickeln und dadurch seine Implementierung voranzutreiben. Letztlich wird sich der wahre Mehrwert erst durch den Grad der Verbreitung weltweit ergeben.

☆ Das semantische Web und seine Journalisten

Einige Vertreter des Online-Journalismus fühlen sich durch die Verbreitung eines standardisierten Formats bedroht (Dilemma schema.org). Der Grund dafür liegt in der Weiterverwertung der durch Suchmaschinen automatisiert ausgelesenen Informationen aus Artikeln. Dienste wie Google News sammeln nämlich diese Informationen und geben sie komprimiert über die Suche aus. Der User ist nun nicht mehr gezwungen, die Internetseite selbst zu besuchen, um die gewünschten Informationen zu erhalten – Klickzahlen und somit Provisionen werden sinken. Von Robotorjournalisten ist da die Rede, die bald die menschlichen Kollegen ersetzen könnten.

☆ Das semantische Web und seine Benutzer

Und die lachenden Dritten sind also die Benutzer. Google konstatiert, alles würde nur zum Wohle des Users passieren, denn durch die vermehrte Implementierung des schema.org-Markups werden die angeforderten Informationen von den Suchmaschinen direkter und ausführlicher ausgeliefert. Die stärkere Strukturierung der Inhalte wird die Erstellung von Relationen zwischen Daten und damit deren weltweite, logische Verknüpfung erleichtern. Tim Berners-Lees Idee des Semantic Web lernt jetzt laufen.

☆ Fazit

An die Anwendung von schema.org werden sich Webworker wohl erst noch gewöhnen müssen. Fakt ist, dass es sich nun um das Format der Wahl der größten Suchmaschinen handelt und somit wohl einen wichtigen Baustein der SEO darstellt. Aber kann sich der Standard auch auf lange Sicht halten oder wird er bald in Vergessenheit geraten? Das wird davon abhängen, ob er von Webworkern weltweit angenommen wird oder nicht.

☆ Weiterführende Links:

Is Schema.org the right way to go? | Did the three big companies take the correct decision in introducing Schema.org
An Uber-comparison of RDFa, Microdata and Microformats | There has been a recent discussion at the World Wide Web Consortium (W3C) about the state of RDFa, Microdata and Microformats.
schema.rdfs.org | This site is a complementary effort by people from the Linked Data community to support Schema.org deployment and usage with a special focus on Linked Data.

Kommentare

Ingo
am 11.12.2011 - 10:28

Interessanter Artikel. Es wird dann wahrscheinlich so sein, dass sich im Zuge der Durchsetzung dieses Standards die Werbeeinnahmen mehr zu Gunsten der Suchmaschinen verlagern werden, da dort ja mit dem Content gearbeitet wird. Adsense und Adwords werden genauer funktionieren. Durchsetzen wird sich der Standard vermutlich schnell, wenn Content der nach diesem Schema ausgezeichnet wurde einfach besser rankt.

Henry Zeitler
am 11.12.2011 - 11:53

Ich denke, die Inhalte einer Internetseite sollten kontrolliert über Microdata, Microformat oder RDFa ausgeliefert werden. Nicht komplette Contents auszeichnen, sondern mit Bedacht auswählen ist der Schlüssel...

Christian Zagrodnick
am 11.12.2011 - 13:25

Viel interessanter finde ich die automatische Erkennung von Orten, Personen, Organisationen etc. – wie es ZEIT ONLINE macht (z.B. http://www.zeit.de/schlagworte/orte/B/index). Wenn eine Maschine das kann, warum den Redakteur belasten.

nik
am 11.12.2011 - 13:35

Huch, das semantische Web! In welcher staubigen Ecke wurde denn diese Idee wiedergefunden? :D

Gunnar Bittersmann
am 11.12.2011 - 17:50

Guter Artikel. Leider stimmt die Adresse vom Weihnachtsmann nicht. ;-) Die richtige ist: Weihnachtsmannpostfiliale, 16798 Himmelpfort. NFK, das Weihnachtsmannpostamt gibt’s dort wirklich. AFAIK werden Briefe auch beantwortet.

Hätte es den Rahmen des Artikels gesprengt, zwischen Syntax (microdata, RDFa) und Vokabular (schema.org, hCard) zu unterscheiden? (Es wäre ja auch denkbar, schema.org-Angaben in RDFa-Syntax zu notieren.)

Es sollte im Artikel eher 'hCard' als 'vCard' heißen (hCard ist die Übertragung des vCard-Konzepts auf Mikroformate in HTML/XML). Und im hCard-Beispiel wäre 'fn' oder 'n' anstatt 'given-name' für "Weihnachtsmann" vielleicht angebrachter gewesen.

Da vCard mit Klassen arbeitet, können die Attribute direkt im Stylesheet weiterverwendet werden. Im Gegensatz dazu wird schema.org lediglich auf die HTML-Elemente aufgesattelt und dient somit nicht zusätzlich der Formatierung der Elemente.

Ähm nö, schema.org dient nicht mehr und nicht weniger zur Formatierung als die Klassen bei vCard. Beides reichert das Markup semantisch an, ob nun durch @itemtype-/@itemprop- oder @class-Attribute, macht keinen entscheidenden Unterschied. Und beides lässt sich gleichermaßen zum Stylen verwenden: *[itemprop="addressLocality"] {…} vs. .locality {…} (was völlig äquivalent zu *[class="locality"] {…} ist).

Für den vorigen Absatz gilt der Disclaimer: IE 6, nein danke. ;-)

Henry Zeitler (Autor)
am 11.12.2011 - 20:45

@Gunnar: Erstmal danke für Deinen hilfreichen Kommentar.
Die Adresse im Beispiel bezieht sich natürlich auf seinen Wohnsitz, nicht die Postadresse *hüstel*

Ja, die zusätzliche Unterscheidung hätte tatsächlich den Rahmen gesprengt. Wer sich das aber genauer ansehen will sollte die weiterführenden Links beachten.

Jein. Aber Du liegst in diesem Beispiel richtig. Bei einer Kombination von Vorname (given-name) und Nachname (family-name) im hcard/vcard-Format wäre ein umschließendes Element mit class=“fn“ angebracht. In diesem Fall reicht dann in der Tat ein class=“fn“, da „Weihnachtsmann“ ja der vollständige Name ist. Ich habe es entsprechend angepasst.

Und ja, Attributselektoren können das natürlich auch. Den IE6 (und andere ältere Browser) können wir da (denke ich) mittlerweile übergehen.

Phillip
am 12.12.2011 - 16:44

Wirklich toll aufbereitete Information, konnte mir ein guten Überblick verschaffen und werde mich jetzt wohl mal näher mit dem Thema auseinandersetzen. Beste Grüße Phillip

Gunnar Bittersmann
am 19.12.2011 - 14:01

Oh, hier kann man auch jeden Mist reinschreiben, ohne dass der korrigiert wird. ;-)

Mach ich mal schnell selber:

.locality {…} ist natürlich nicht äquivalent zu *[class="locality"] {…}, sondern zu *[class~="locality"] {…}.

Die Kommentare sind geschlossen.