Checkliste zum Hackathon der Landesanstalt für Medien NRW

Hier findet ihr die Checkliste zur Bewertung eures Algorithmus.

1. Ziele des Hackathons

Es soll ein Algorithmus entwickelt werden, der sowohl gezielt (Suche über URLs) als auch ungezielt (Funktion als Crawler) nach Inhalten sucht. Bei der Suche nach Inhalten wird sich dabei auf deutschsprachige Urheber und Inhalte beschränkt. Die Suche schließt Inhalte auf ausländischen Plattformen und Servern ein. Als Urheber ist hier der Inhaltsverantwortliche gemeint, um sich zum juristisch vorbelegten Begriff des ‚Urhebers‘ abzugrenzen (siehe auch Glossar – Definition Urheber). Zur Anwendung sollen hierbei nur Open-Source-Lösungen kommen. Kommerzielle Angebote sind wegen Folgekosten ausgeschlossen.

Bei der Ermittlung der Ergebnisse ist auf die in der Checkliste aufgeführten Kriterien zu achten, wobei die Aufgaben nach Wichtigkeit in sehr wichtig (=must) und weniger wichtig (=nice) unterteilt sind. Der Algorithmus soll innerhalb der Kriterien so viele Aufgaben des Typs „must“ umsetzen wie möglich. Wünschenswert wäre die zusätzliche Ausgabe von Informationen für Aufgaben des Typs „nice“. Die vom Algorithmus gefundenen Ergebnisse sollen in tabellarischer Form (z. B. Excel-Datei) ausgegeben werden. Anhand der Anzahl an erfüllten Kriterien des Typs “must” und zusätzlich des Typs “nice” wird der Algorithmus bewertet.

Am Ende der Checkliste findet sich eine Bewertungsmatrix mit einer Übersicht der Kriterien und der Aufgaben-Typen. Es wird drei Use Cases geben (Blog, Facebook, Twitter), welche bearbeitet werden sollen. Die abschließende Bewertung basiert auf allen drei Use Cases.

2. Berücksichtigte Kriterien

2.1 Rechtsverstoß
Der Algorithmus soll die konkrete URL ausgeben, unter der der potenzielle Rechtsverstoß gefunden wurde (must). Sofern mehrere Beispiele für Rechtsverstöße auf einem Gesamtangebot gefunden wurden, so sollen diese gebündelt mit den konkreten URLs der Unterseiten bzw. der Fundorte ausgegeben werde. Außerdem soll der potenzielle Rechtsverstoß selbst z. B. in einer Datei ausgegeben werden (must, nur bei Text sinnvoll). Zusätzlich soll bei jedem potenziellen Rechtsverstoß die Kategorie erkannt werden (must). Hierbei ist zwischen Hatespeech (Kategorie 1, siehe Glossar) und jugendschutzrelevanten Inhalten (Kategorie 2/3, siehe Glossar) zu unterscheiden. Eine weitergehende Differenzierung nach Rechtsverstößen (z.B. Volksverhetzung, Aufruf zur Gewalt) soll ebenfalls möglich sein (must). Auf eine Kombination von unterschiedlichen Rechtsverstößen ist hierbei zu achten.

Beispiel:
Kategorie 1: Hatespeech = Haupt/Oberkategorie

1.1 Volksverhetzung = Unterkategorie 1
1.2 Aufruf zur Gewalt = Unterkategorie 2

Die jeweiligen Unterkategorien werden in einer Keywordliste dargestellt und sind auf Nachfrage verfügbar.

2.2 Keywords
Die zur Identifizierung potenzieller Rechtsverstöße genutzten Keywords selbst (must) als auch die Anzahl bzw. Häufigkeit der Keywords (must) und das Verhältnis zwischen Keywords und Textlänge (must) sollen angegeben werden. Die Keywords sollen im Dokument hervorgehoben werden (nice).

Die Keywords, nach denen gesucht werden soll, werden ebenfalls in der Keywordliste – sortiert nach den jeweiligen Kategorien - aufgeführt.

2.3 Urheber
Der Algorithmus soll Informationen zur Identifikation des Inhaltsverantwortlichen (siehe Glossar) ausgeben. Hierzu zählen Klarname bzw. Nickname (must), Land (nice), Postadresse (nice), E-Mail-Adresse (nice), IP-Adresse (nice), Netzwerk (nice).

Beispiel: Zur besseren Abgrenzung zwischen Betreiber einer Webseite, Verfasser eines Kommentars oder Beitrags ist die Definition im Glossar zu lesen. Wichtig ist, dass ein Rechtsverstoß potenziell auf jeder Ebene vorkommen kann. Es kann sowohl derjenige, der eine Webseite zur Verfügung stellt als auch der Verfasser eines Kommentars oder der ‚Poster‘ eines Bildes den Rechtsverstoß begehen. Informationen sind dementsprechend zu jeder dieser ‚Personen‘ auszugeben.

2.4 Reichweite
Für die Relevanz eines Rechtsverstoßes ist die Reichweite wichtig (siehe Glossar: Rechtsverstoß-Kategorien). Bei Social Media Plattformen soll die Anzahl der Follower (must), der Likes (must) und der Kommentare (must) ausgegeben werden. Befindet sich der potenzielle Rechtsverstoß im Kommentar so ist dabei sowohl die Anzahl der Follower und Likes des Ursprungsposts sowie des Ursprungsprofils als auch die Anzahl der Follower und Likes des Kommentators bzw. des Kommentars von Relevanz. Bei Webseiten/Blogs soll das jeweilige Alexa-Ranking (siehe Glossar, nice), die Anzahl an Seitenaufrufen (must) und, sofern vorhanden, die Anzahl an Kommentaren ausgegeben werden (must).

2.5 Plattform
Der Algorithmus soll folgende Plattformen mit unterschiedlichem Komplexitätsgrad untersuchen können. Hierzu zählt sowohl die manuelle Eingabe einer URL (geschlossene Suche) und das Erkennen der an der dort hinterlegten Internetquelle befindlichen Rechtsverstöße (must). Der Algorithmus soll außerdem das automatische und komplette Durchsuchen (offene Suche) von Webseiten/Blogs sowie zusätzlich von Social Media Angeboten (must) ermöglichen. Insgesamt soll der Algorithmus Rechtsverstöße in Text- oder Bildform und, sofern der potenzielle Rechtsverstoß im Kommentar vorliegt, deren zugehörige Kommentare erkennen können (must). Hinweis: Bei der Beschäftigung mit Social Media Plattformen ist darauf zu achten, dass je nach Plattform spezifische APIs existieren und zum Zugriff auf Inhalte diese verwendet werden müssen.

Mit dem Begriff ‚Plattform‘ werden folgende Begrifflichkeiten unter einem zusammengefasst: Internetplattform, Onlineplattform, Webportal, Internetportal, Onlineportal.

2.6 Zeitstempel
Der Algorithmus soll verschiedene Zeitinformationen auslesen können: Das aktuelle Datum und die Uhrzeit (must) der Webseite/Blog, die einen potenziellen Rechtsverstoß beinhaltet. Das aktuelle Datum und die Uhrzeit des Kommentars auf der Webseite/Blog (must), der einen potenziellen Rechtsverstoß beinhaltet. Das Erstellungsdatum der Webseite/Blog (nice), die einen potenziellen Rechtsverstoß beinhaltet. Das Aktualisierungsdatum der Webseite/Blog (nice), die einen potenziellen Rechtsverstoß beinhaltet. Bei Social Media Portalen: Das aktuelle Datum und die Uhrzeit des Kommentars, der einen potenziellen Rechtsverstoß beinhaltet (must).

2.7 Dauer
Ausgabe des Zeitaufwands beim Erkennen eines Rechtsverstoßes zum Vergleich mit manueller Suche der ProgrammbeobachterInnen und zum Vergleich mit anderen Lösungen, die während des Hackathons entwickelt wurden (nice).

2.8 Format
Der Algorithmus soll auf Bild- und/oder Textinformationen anwendbar sein (must). Zusätzlich soll es eine Anwendbarkeit auf Kombinationen von Bild- und Textinformationen zur Kontexterkennung geben (must). Die Erkennung und Verarbeitung von vielen unterschiedlichen Bild- und Textdateiformaten soll möglich sein (must).

3. Glossar

3.1 Alexa-Ranking
Zur Ermittlung der Bedeutung einer Webseite und damit der Relevanz bezüglich der Reichweite eines Rechtsverstoßes kann das Alexa-Ranking herangezogen werden (https://www.alexa.com/topsites/countries/DE). “Alexa ist ein Tochterunternehmen von Amazon, das Nutzern weltweit neben einer Suchmaschine und einem Webverzeichnis ebenfalls die Alexa Traffic Rankings anbietet. Dabei handelt es sich um eine Liste der meistbesuchten Websites im Internet, die sogar nach den jeweiligen Ländern aufgeteilt werden können. Das Ranking basiert auf Daten, die die User der Alexa-Toolbar an das Unternehmen automatisch übermitteln.” (https://kundenwachstum.de/alexa-rank/)

3.2 Rechtsverstoß-Kategorien
Bei den unterschiedlichen Typen an Rechtsverstößen wird zwischen drei Kategorien (Kategorie 1: absolut unzulässige Inhalte; Kategorie 2: relativ unzulässige Inhalte; Kategorie 3: entwicklungsbeeinträchtigende Inhalte) unterschieden, wobei die Rechtsverstöße der Kategorien 2 und 3 zusammen betrachtet werden. Rechtsverstöße der Kategorie 1 erfordern auf Grund rechtlicher Gegebenheiten wie der Schwere des Verstoßes sofortiges Handeln (z. B. Volksverhetzung etc.). Es handelt sich hier um Rechtsverstöße im Bereich Hate Speech. Rechtsverstöße dieses Bereiches gehören fast ausschließlich der Kategorie 1 ein. Zu der Kategorie 2 gehören (einfach) pornografische und offensichtlich schwer jugendgefährdende Inhalte. Zur Kategorie 3 zählen entwicklungsbeeinträchtigende Inhalte. Bei Kategorie 2 und 3 ist für die Bearbeitung neben dem Inhalt auch die Reichweite von Relevanz.

3.3 Urheber-Definition
Der Urheber ist die für den Rechtsverstoß verantwortliche Person. Es kann sich hierbei um einen Betreiber einer Webseite/ eines Blogs handeln, aber auch um einen Kommentator auf einer Social-Media-Seite. Es ist hierbei zu berücksichtigen, dass der Urheber nicht zwingend der Plattformbetreiber bzw. Betreiber der Webseite oder der Profilseite sein muss. Bsp.: Auf einer Webseite einer Partei gibt es einen Text mit einer Kommentarspalte. Der Rechtsverstoß ist in einem Kommentar einer Person begründet, die nichts mit der Partei oder dem Betreiber der Webseite zu tun hat. Diese für den potenziellen Rechtsverstoß verantwortliche Person ist der Urheber.

4. Bewertungsmatrix

Zur Bewertung der während des Hackathons entwickelten Algorithmen dient folgende Bewertungsmatrix.