literaturlesen - Dokumentation

Open Data

Über die Daten

Im Zentrum des Forschungsprojekts steht die anonymisierte Sammlung von Daten zum Leseverhalten der NutzerInnen, dem sogenannten Lesetagebuch. Die erfassten Daten werden in Form von Formulardaten (survey), Protokolldaten (log), als auch durch Abfrage der NutzerInnen während des Lesens, erfasst. Durch die technische Struktur der Daten wird eine Anonymisierung gewährleistet.

Erhebung

Die Daten wurden während der Nutzung der literaturlesen-App mit dem Einverständnis der Nutzer*innen gewonnen und stehen zur allgemeinen Nutzung und Beforschung zur Verfügung (MIT Lizenz).

Forschungsfragen

Folgende Forschungsfragen soll das Projekt beantworten.

	Forschungsfrage	Ergebnisse/Aussagen
1	Wann lesen die NutzerInnen?	Uhrzeiten, Wochentage
2	Wieviel lesen die NutzerInnen?	Anzahl an Werken, Anzahl an Seiten, Reihenfolge der Texte, Linearität des Lesens, Vollständigkeit der gelesenen Texte
3	Wie lange lesen die NutzerInnen?	pro Tag, pro Woche, …
4	Wie schnell lesen die NutzerInnen?	Wörter pro Minute
5	Was lesen die NutzerInnen?	Texte, Gattung, Wiederholungen, Textpassagen
6	Wie annotieren die NutzerInnen?	Anzahl, Art, Annotationshäufigkeit nach Text oder Gattung
7	Nach was suchen die NutzerInnen?	Suchbegriffe
8	Wo lesen die NutzerInnen?	Anzahl an und Art der Leseorte

Bereitgestellte Datenformate

Die erhobenen Daten stehen in drei Formaten für verschiedene Anwendungszwecke zur Verfügung.

JSON

Das JSON-Format ist besonders für Webanwendungen geeignet und ermöglicht die Darstellung der Daten in Objekt-Form. Die Datenstruktur ist auf verschiedene Dateien verteilt. Für die Log-Daten (log-YYYY-MM-DD.json) wird ein täglicher Datensatz abgelegt.

CSV

CSV ist perfekt geeignet tabellarische Daten auf einfache Art als Textdateien abzubilden und daher hoch kompatibel. Dabei werden Tabellenzeilen durch Zeilenumbrüche im Dokument gekennzeichnet und Spalten durch ein Symbol voneinander geteilt. Im Fall der literaturlesen-Daten ist dieser Separator ein Komma ",". Die Datenstruktur des Projekts ist in verschiedene CSV-Einzeldateien aufgeteilt. Die Log-Daten werden zudem täglich als Datei abgelegt (YYYY-MM-DD_literaturlesen.csv).

SQL

SQL ist die bekannteste Datenbankformat schlecht hin. Organisiert in Tabellen können vielfältige Strukturen abgebildet werden. Auch die literaturlesen-App erfasst ihre Daten in Form einer SQL-Tabelle. In doppelt anonymisierter Form können diese Daten heruntergeladen werden.

Struktur der Daten

Die Forschungsdaten werden bei der Erfassung in verschiedene Tabellen aufgeteilt und unterteilen sich in statische Daten und Nutzer*innendaten. Statische Daten sind Referenzen auf die gelesenen Texte (texts.json, SQL-Tabelle texte, texte_literaturlesen.csv) und die dazugehörigen Text-Elemente wie Absätze und Zeilen (textelements.json, SQL-Tabelle textelements, textelements_literaturlesen.csv). Die enthaltenen Daten haben ihren Ursprung in der Text-Grid-Datenbank und sind in der erfassten Form ohne Annotationen oder Meta-Daten gemeinfrei (https://www.textgrid.de/Digitale-Bibliothek).

Die anonymisierten Nutzer*innendaten stellen den eigentlichen Schatz des Projekts dar und unterteilen sich in Umfragedaten (survey.json, SQL-Tabelle survey, survey_literaturlesen.csv) und Log- bzw. Protokolldaten (log-YYYY-MM-DD.json, YYYY-MM-DD_literaturlesen.csv, SQL Tabelle log und log_details).

Schema der Protokolldatenbank (log)

Die Forschungsdatenbank speichert Interaktionen der NutzerInnen mit der App und den Leseinhalten. Die Datenbank ist so gestaltet, dass sie sich in ihren Aktionen und Funktionen auch während des Projektverlaufs erweitern lässt.

Spalte	Datenart	Beispielwert(e)	Beschreibung
id	Numerisch	56	Unique ID des Datenbankeintrags
time	Numerisch	1620127363511	Unix-Timecode: Anzahl an Millisekunden seit 1.1.1970. Der Wert wird innerhalb der App generiert und nicht beim Eintrag in die Datenbank. Selektionen nach NutzerInnen müssen nach der Zeit sortiert werden, um eine Chronologie zu gewährleisten. Zeiten zwischen zwei Ereignissen lassen die Aussage über die Dauer der Aktion zu.
appid	Alphanumerisch, Zeichenkette	365922d4df0fab5de253657b1590b5d3	Zufälliger und einzigartiger Wert, welcher einmalig zum erstmaligen Start der App generiert wird. Alle Einträge mit derselben App-ID gehören zur selben NutzerIn. Die App-ID verknüpft Protokoll- und Formulardatenbank. In der öffentlichen Forschungsdatenbank wurde die randomisierte App-ID zusätzlich gehashed.
session	Alphanumerisch, Zeichenkette	kmk224a	Die Session wird für jede Sitzung erneut innerhalb der App erzeugt. Eine Änderung der Session findet auch statt, wenn die App aus dem Hintergrund erneut geöffnet wird. Folgen von Aktionen lassen sich so optimal abgrenzen und ermöglichen Aussagen über die Kontinuität des mobilen Lesens.
bereich	Alphanumerisch, Zeichenkette	faust1, desknabenwunderhorn, impressum	Seiten, Screens oder Texte der App als Wert codiert.
item	Alphanumerisch, Zeichenkette	page1	Das Item spezifiziert ggf. einen Bereich. Bei Texten sind es zum Beispiel die Seiten. Eine Codeliste wird erstellt und während des Projekts ergänzt.
action	Alphanumerisch, Zeichenkette	Enter, EmojiOpen, EmojiConfirm, …	Aktionen beschreiben in codierter Form, was die NutzerIn ggf. gerade mit dem Item in dem spezifischen Bereich macht. Z.B. beschreibt die Aktion „Enter“ immer das Betreten eines Bereichs. Aktionen und deren Bedeutung werden in einer Codeliste gepflegt.
value	Alphanumerisch, Zeichenkette	Kommentar, 0.32111	Das Value spezifiziert ggf. die Aktion und gibt z.B. bei einer Annotations-Aktion an, welche Art der Annotation erfolgte. Das Value ist demnach direkt von der Aktion abhängig. Bei einer Seitenangabe als Item spezifiziert das Value die genaue prozentuale Textposition oder einen Bezug auf eine Normseiten-Position. Auch komplexere Values können mittels Kommaseparierung oder Serialisierung enthalten sein.
words	Numerisch	400	Gilt nur für Textfortschritte und zeigt an, wie viele Wörter auf der aktiven Seite betrachtet werden.

Hilfsdatenbank: log_details

Die Log-Details erweitern und präzisieren die Log-Einträge vorallem beim Lesen. Dabei werden für jeden Lese-Protokollaufruf (log) die aufgerufenen Text-Elemente wie Absätze, Verse oder Zeilen notiert. Als Referenzen dienen Elemente aus der Tabelle textelements.

Spalte	Datenart	Beispielwert(e)	Beschreibung
id	Numerisch	56	Unique ID des Datenbankeintrags
logid	Numerisch	21605	Referenz auf den Wert log.id
elementid	Zeichenkette	effibriest-1-2-1-46	Referenz auf das Text-Element textelements.elementid

Schema der Formulardatenbank (survey)

Nach dem erstmaligen Öffnen der App können Nutzer*innen freiwillig demografische Daten beisteuern, welche den Datenstamm erweitern.

Spalte	Datenart	Beispielwert(e)	Beschreibung
id	Numerisch	56	Unique ID des Datenbankeintrags
time	Numerisch	1620127363511	Unix-Timecode: Anzahl an Millisekunden seit 1.1.1970. Der Wert wird innerhalb der App generiert und nicht beim Eintrag in die Datenbank. Selektionen nach NutzerInnen müssen nach der Zeit sortiert werden, um eine Chronologie zu gewährleisten. Zeiten zwischen zwei Ereignissen lassen die Aussage über die Dauer der Aktion zu.
appid	Alphanumerisch, Zeichenkette	Fj3m652a031Q	Zufälliger und einzigartiger Wert, welcher einmalig zum erstmaligen Start der App generiert wird. Alle Einträge mit derselben App-ID gehören zur selben NutzerIn. Die App-ID verknüpft Protokoll- und Formulardatenbank.
age	Numerisch	25	Alter der NutzerIn.
gender	Numerisch	d, w, m	Codiertes Geschlecht: d=divers, w=weiblich, m=männlich
language	Numerisch	deutsch, bilingual, other	deutsch=Deutsch als Muttersprache, bilingual=zweisprachig, other=anders
beruflich	Numerisch	0/1	Codierte Antwort: 0=Nein, 1=Ja
buecher	Numerisch	500	Anzahl an Büchern analog und digital oder ggf. Codierte Antworten für eine Auswahloption.

Statische Hilfstabelle: Texte-Datenbank (texte)

Die Texte-Datenbank (texte) ist eine Hilfsdatenbank und gibt eine Übersicht der 50 gemeinfreien, importierten Texte des Text-Grid-Projekts. Bei jedem Text-Update werden alle Einträge gelöscht und die Datenbank neu aufgebaut - weswegen die texte.id nicht statisch sind.

Spalte	Datenart	Beispielwert(e)	Beschreibung
id	Numerisch	1769	Unique ID des Datenbankeintrags, welche bei jedem Update erneuert werden.
textid	Numerisch	textgrid:pvts.0	Textgrid-ID der zugrunde liegenden TEI-Datei
title	Zeichenkette	Ardinghello und die glückseligen Inseln	Titel des Textes
type	Zeichenkette	prose	Text-Typ: prose, verse, drama, other
shortname	Zeichenkette	ardinghellounddieglckseligeninseln	Lesbarer, urlsicherer-Kurzname
author	Zeichenkette	Heinse, Wilhelm	Name und Vorname des Autors

Statische Hilfstabelle: Text-Elemente-Datenbank (textelements)

Die Texte-Elemente Datenbank (textelements) ist auch eine Hilfsdatenbank und beinhaltet die Text-Elemente (Verse, Absätze) aller Texte und deren Wortlänge.

Spalte	Datenart	Beispielwert(e)	Beschreibung
id	Numerisch	5667567	Unique ID des Datenbankeintrags, welche bei jedem Update erneuert werden.
elementid	Zeichenkette	buntesteine-1-1-72	Textgrid-ID der zugrunde liegenden TEI-Datei
textid	Zeichenkette	textgrid:pvts.0	Textgrid-ID des TEI-Textes
text	Zeichenkette	»Alfred,« sagte ich, »was ist dir denn?«	Textinhalt des Text-Elements
words	Numerisch	7	Anzahl an Wörtern