Infrastruktur Peter Wittenburg Wer bin ich komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden Technologie Infrastruktur ID: 814588
Download The PPT/PDF document "CLARIN/D-SPIN Technische" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.
Slide1
CLARIN/D-SPIN Technische Infrastruktur
Peter Wittenburg
Slide2Wer bin ich?
komme
vom
MPI
für
Psycholinguistik
dort
30
Jahre
verantwortlich
für
Methoden
,
Technologie
,
Infrastruktur
,
Archivierung
, etc
seit
2000
involviert
in
DOBES
was
ein
tolles
Projekt
war und
ist
Mitglied
des MPG
IT
Ausschusses
-
kenne
die Welt der
Physiker
,
Chemiker
etc
seit
2000
Teilnahme
an EU
Standardisierungs
- und
Infrastruktur-Projekten
seit
2008
aktive
in CLARIN
Slide3Was soll ich erzählen?
Meine
Aufgabe
ist es, Ihnen einen kurzen Überblick über die technische Infrastruktur zu geben, an der CLARIN arbeitet und die Ihnen (wahrscheinlich nur den etwas Jüngeren) bei der wissenschaftlichen Arbeit helfen könnte.Natürlich werden sie mit Argwohn aufpassen, was ich sage, denn wir wissen alle: es gibt nichts umsonst. Was ist also der Preis, was ist der Gewinn und wann ist er einlösbar?Ich bitte Sie insofern um Nachsicht, als dass ich einiges nur sehr verkürzt oder gar nicht erwähnen kann.
CLARIN/D-SPIN
Infrastruktur
N
Minuten
verlustbehaftete
Kompression
Slide4Die AufgabeDie
entscheidende
Frage
ist, ob es Wege gibt, die enorme Fragmentierung in unserer Disziplin zu überwinden - die Verschiedenartigkeit der Formate, der Beschreibung linguistischer Phänomene, der unterschiedlichen Sichtbarkeit und Zugriffsgestaltung etc. und da alle interessierten Wissenschaftler - vor allem in den Humanities - europaweit die gleichen Probleme haben, macht es Sinn, grenzenübergreifend zu denken und zu handeln CLARIN ist europäisch und D-SPIN ist die deutsche Gruppe.Ein paar Beispiele sind besser als abstrakte Erklärungen.
Slide5Schon mal versucht?
Haben
Sie
schon mal versucht, einen Text mit einer Audio-Aufnahme automatisch abzugleichen?and you follow then the sign Kleef that’s the Oranje Single yeah then you follow the sign Kleef
Es
geht
!
Aber
...
Slide6Schon mal gemacht?
Haben
Sie
schon mal versucht, ein Lexikon derart aufzubereiten, dass sie es in einem Programm einsetzen und mit anderen Daten zusammenbringen können?Am MPI und im DOBES Programm hat jede(r) ein anderes Lexikon (Struktur und Attribute, oftmals ist die Struktur auch nur im Kopf). Ein Fallbeispiel eines respektablen Linguisten:Strukturbeschreibung ist vorhanden, aber nicht umgesetzt.ca. ein halbes Jahr Diskussionen per Email etc letztlich Histogramm mit ca. 200 verschiedenen Strukturendavon 12 ungewollte und nicht korrekte Strukturendann natürlich script-basierte
und manuelle Korrekturen 3 teure Personen und 1 Stud.Ass. waren involviert
Es
geht! Aber ...
Slide7Schon mal durchlebt?
Haben
Sie
schon mal ca. 5000 Ressourcen (verschiedene Datentypen, verschiedene Versionen, Ausschnitte, etc) auf Ihrem Notebook managen müssen?Im DOBES Projekt (Dokumentation Bedrohter Sprachen) zumindest ein Kollege, der diese Schallmauer durchbrochen hat, andere sind dicht dran.Wie anders als mittels Metadaten Beschreibungen werden Sie den Überblick behalten?Wenn schon Metadaten dann doch solche, die andere auch direkt verwenden können.Ich weiss: Metadaten erzeugen und verwalten ist nichts, was man liebt, aber wie anders wollen sie die Wiederverwendbarkeit der Daten
garantieren - sogar manchmal Ihrer eigenen.Es
geht! Aber ...
Slide8Sind das überhaupt Themen?Sind
Sichtbarkeit
,
Austauschbarkeit
überhaupt Themen?in vielen Fällen (noch) nicht Beispiele aus der Sicht eines Nicht-Linguisten:in DOBES programmatisch: die Dokumentation ist nicht nur für den Linguisten selbst - sondern für andere und mehrere Generationen, deren Wünsche wir nicht einmal kennen.Lexika, Wordnets etc speichern Wissen für viele und werden immer Schlüssel für die Bedeutungserschließung sein. Programme sind teuer und sollten daher für viele einfach verwendbar sein. etc etc
Slide9Zeit des Umdenkensscheinen in der
LRT
Gemeinde
in
einem Prozess des Umdenkens zu sein ein Teil der Linguisten agieren als “Service Anbieter” für andere alle Wissenschafts-Disziplinen verwenden Sprachressourcen insbesondere die Geisteswissenschaften wir sollten sie in die Lage versetzen, Ressourcen und Tools selbsttätig zu verwenden und miteinander zu kombinierendie meisten haben keinen Stab von Mitarbeitern, die clevere Konversionen etc ausführen könneneine CLARIN/D-SPIN Infrastruktur muss hier ansetzen: Schaffen einer integrierten und interoperablen Domäne von Sprachressourcen (Daten und Tools)
Slide10Pfeiler der IntegrationTypisches
Ziel
:
Schaffen
einer virtuellen Kollektion und das Suchen nach einfachen MusternIngredienten:persistente “Repositorien” mit stabilen Diensten und ein “offener” Archivierungs Service persistente und eindeutige Identifikatoren für alle Ressourcen und Services damit alle Verweise stabil bleibengemeinsame Metadaten-Domäne basierend auf einem (flexiblen) Standard und Standards für den AustauschSingle Identity / Single Sign-On Prinzip basierend auf Vertrauen und natürlich eine clevere Suchmaschine bzw. Statistik-Tools, wobei natürlich immer die Frage ist, ob Daten oder Code transferiert werden dürfen
Slide11Pfeiler der IntegrationIngredienten
:
persistente
“
Repositorien
/Archive” CLARIN hat Kriterien für solche “neuen Service-Zentren” etabliert in D haben sich DFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet es wird ein Qualitätscheck geben (Data Seal of Approval) es wird Geld kosten persistente und eindeutige Identifikatoren für alle Ressourcen und Services CLARIN bietet einen Service an (basierend auf einer
MPG Entscheidung und Redundanz durch andere europäische
Zentren)
für jedes Object und jede Version etc kann eine URL und
verschiedene Informationen
erzeugt werden, und zurückkommt eine PID, die man in die Metadaten einträgt die kann
dann jeder verwenden und sie werden aufgelöst was
heißt persistent: MPG steht dahinter -
reicht
das?
Slide12Pfeiler der IntegrationIngredienten
:
gemeinsame
Metadaten-Domäne
gegenwärtige Sichtbarkeit nicht ausreichend - gibt keinen echten Katalog, keine Systematik und jede Menge “Gemecker”Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEIweg von fixed Schema hin zu flexiblem Componenten Model semantische Interoperabilität durch die Verwendung von registrierten “Konzepten” ISOcat (ISO 12620), TEI, DCdh. jeder kann sein eigenes Schema zusammenstellen momentan arbeiten “Experten” an den Element-Definitionenund Entwickler die an der Infrastruktur arbeiten (MPI, DFKI, IDS)wir sorgen dafür, dass alle IMDI/OLAC Investitionen gewahrt bleiben jeder kann mitmachen und prüfen, ob alles drin ist
(zB. Zeichensprache)CMDI wird ein Standard in CLARIN !arbeiten
an einem “Virtual Language Observatory
”
Slide13Pfeiler der IntegrationIngredienten
:
Single Identity / Single Sign-On
Prinzip
mit
Ihrer “Heimat” Identität müssen sie an all das Herankommen, zu dem Sie Zugangsberechtigung habenes ist wie bei Schlüsseln: man möchte am liebsten nur einen haben wir arbeiten eng mit dem DFN Verein zusammen wenn Ihre Uni in der DFN AAI (so heisst das) ist, dann gilt das europaweitIDS/MPI/BBAW nehmen nun an einem ersten Pilotprojekt zusammen mit NL und Finland teil
Slide14Pfeiler der Interoperabilitättypisches
Ziel
:
Zusammenstellen
von Workflows Ingredienten für ein schwer anzupackendes Problem:Vereinbarung “standardisierter” Formate für die wesentlichen Datentypen (Text-Korpora, annotierte Medien, Lexika, etc) CLARIN macht Inventur von Format “Standards&Best Practices”Community Best Practices werden natürlich weiterleben CLARIN muss Konverter explizit und offen machenman wird nicht alles (WORD) unterstützen können offene Registratur linguistischer Konzepte
als Referenz wollen ein pragmatisches Problem
lösen (gemeinsame Suche
)keiner soll seine Konzepte aufgeben!!!
aber vielleicht
für viele Konzepte Referenzen möglich CLARIN (zusammen mit ISO) arbeitet an ISOcat
Slide15Ist es morgen fertig?
schön
wär’s
ein steiniger und nicht einfacher Weg wenn wir jetzt aber nicht schrittweise anfangen, wann denn dann?nicht alles, was ich erzählt habe, werden Sie interessant gefunden haben, aber eines ist klar: die LRT Community ist in einigen Punkten im Moment anderen voraus
Slide16Ist morgen schon etwas fertig
?
arbeiten
an
einer
Reihe von Dingen eine Reihe von Anforderungs Spezifikationen sind fertig nicht einfach bei 150 Mitgliedern, dh. ca. 500 Personen gemeinsame Metadaten Domäne 2009 Basis ist Language Resource and Technology Inventory Ziel ist “Virtual Language Observatory” - erster Schritt momentan alle sind aufgefordert mitzumachen erste allgemeine Service Angebote in 2009 PID Angebot steht; erste AAI Domäne in 2009 arbeiten mit Hochdruck an typischen
Workflowshier ist D-Spin zu nennenwollen
mehr Konvertoren
verfügbar machenetc
Slide17Randbemerkungen
CLARIN/D-SPIN
ist
eine
Infrastrukturinitiative - kein Forschungsprojekt es baut auf existierenden Resourcen und Tools auf und will diese integrierendie Infrastruktur Pfeiler müssen persistent sein, Wissenschaftler müssen sich auf Dienste verlassen können wir sind nur ein Teil der ganzen Infrastruktur- Bewegung - viele Disziplinen sind involviert wir bekommen jetzt eine Chance - eine zweite wird es so schnell nicht geben wir werden von den Hardcore Kollegen etc respektiert
Slide18Ende
Falls
nicht
to end in
Babylonish
scenario nous avons still een beten time om schattingen te improve.Danke für Ihre Aufmerksamkeit!