/
CLARIN/D-SPIN  Technische CLARIN/D-SPIN  Technische

CLARIN/D-SPIN Technische - PowerPoint Presentation

elitered
elitered . @elitered
Follow
354 views
Uploaded On 2020-10-22

CLARIN/D-SPIN Technische - PPT Presentation

Infrastruktur Peter Wittenburg Wer bin ich komme vom MPI für Psycholinguistik dort 30 Jahre verantwortlich für Methoden Technologie Infrastruktur ID: 814588

ist und der die und ist die der ein nicht sie clarin mit von wir werden sind infrastruktur schon

Share:

Link:

Embed:

Download Presentation from below link

Download The PPT/PDF document "CLARIN/D-SPIN Technische" is the property of its rightful owner. Permission is granted to download and print the materials on this web site for personal, non-commercial use only, and to display it on your personal computer provided you do not modify the materials and that you retain all copyright notices contained in the materials. By downloading content from our website, you accept the terms of this agreement.


Presentation Transcript

Slide1

CLARIN/D-SPIN Technische Infrastruktur

Peter Wittenburg

Slide2

Wer bin ich?

komme

vom

MPI

für

Psycholinguistik

dort

30

Jahre

verantwortlich

für

Methoden

,

Technologie

,

Infrastruktur

,

Archivierung

, etc

seit

2000

involviert

in

DOBES

was

ein

tolles

Projekt

war und

ist

Mitglied

des MPG

IT

Ausschusses

-

kenne

die Welt der

Physiker

,

Chemiker

etc

seit

2000

Teilnahme

an EU

Standardisierungs

- und

Infrastruktur-Projekten

seit

2008

aktive

in CLARIN

Slide3

Was soll ich erzählen?

Meine

Aufgabe

ist es, Ihnen einen kurzen Überblick über die technische Infrastruktur zu geben, an der CLARIN arbeitet und die Ihnen (wahrscheinlich nur den etwas Jüngeren) bei der wissenschaftlichen Arbeit helfen könnte.Natürlich werden sie mit Argwohn aufpassen, was ich sage, denn wir wissen alle: es gibt nichts umsonst. Was ist also der Preis, was ist der Gewinn und wann ist er einlösbar?Ich bitte Sie insofern um Nachsicht, als dass ich einiges nur sehr verkürzt oder gar nicht erwähnen kann.

CLARIN/D-SPIN

Infrastruktur

N

Minuten

verlustbehaftete

Kompression

Slide4

Die AufgabeDie

entscheidende

Frage

ist, ob es Wege gibt, die enorme Fragmentierung in unserer Disziplin zu überwinden - die Verschiedenartigkeit der Formate, der Beschreibung linguistischer Phänomene, der unterschiedlichen Sichtbarkeit und Zugriffsgestaltung etc. und da alle interessierten Wissenschaftler - vor allem in den Humanities - europaweit die gleichen Probleme haben, macht es Sinn, grenzenübergreifend zu denken und zu handeln CLARIN ist europäisch und D-SPIN ist die deutsche Gruppe.Ein paar Beispiele sind besser als abstrakte Erklärungen.

Slide5

Schon mal versucht?

Haben

Sie

schon mal versucht, einen Text mit einer Audio-Aufnahme automatisch abzugleichen?and you follow then the sign Kleef that’s the Oranje Single yeah then you follow the sign Kleef

Es

geht

!

Aber

...

Slide6

Schon mal gemacht?

Haben

Sie

schon mal versucht, ein Lexikon derart aufzubereiten, dass sie es in einem Programm einsetzen und mit anderen Daten zusammenbringen können?Am MPI und im DOBES Programm hat jede(r) ein anderes Lexikon (Struktur und Attribute, oftmals ist die Struktur auch nur im Kopf). Ein Fallbeispiel eines respektablen Linguisten:Strukturbeschreibung ist vorhanden, aber nicht umgesetzt.ca. ein halbes Jahr Diskussionen per Email etc letztlich Histogramm mit ca. 200 verschiedenen Strukturendavon 12 ungewollte und nicht korrekte Strukturendann natürlich script-basierte

und manuelle Korrekturen 3 teure Personen und 1 Stud.Ass. waren involviert

Es

geht! Aber ...

Slide7

Schon mal durchlebt?

Haben

Sie

schon mal ca. 5000 Ressourcen (verschiedene Datentypen, verschiedene Versionen, Ausschnitte, etc) auf Ihrem Notebook managen müssen?Im DOBES Projekt (Dokumentation Bedrohter Sprachen) zumindest ein Kollege, der diese Schallmauer durchbrochen hat, andere sind dicht dran.Wie anders als mittels Metadaten Beschreibungen werden Sie den Überblick behalten?Wenn schon Metadaten dann doch solche, die andere auch direkt verwenden können.Ich weiss: Metadaten erzeugen und verwalten ist nichts, was man liebt, aber wie anders wollen sie die Wiederverwendbarkeit der Daten

garantieren - sogar manchmal Ihrer eigenen.Es

geht! Aber ...

Slide8

Sind das überhaupt Themen?Sind

Sichtbarkeit

,

Austauschbarkeit

überhaupt Themen?in vielen Fällen (noch) nicht Beispiele aus der Sicht eines Nicht-Linguisten:in DOBES programmatisch: die Dokumentation ist nicht nur für den Linguisten selbst - sondern für andere und mehrere Generationen, deren Wünsche wir nicht einmal kennen.Lexika, Wordnets etc speichern Wissen für viele und werden immer Schlüssel für die Bedeutungserschließung sein. Programme sind teuer und sollten daher für viele einfach verwendbar sein. etc etc

Slide9

Zeit des Umdenkensscheinen in der

LRT

Gemeinde

in

einem Prozess des Umdenkens zu sein ein Teil der Linguisten agieren als “Service Anbieter” für andere alle Wissenschafts-Disziplinen verwenden Sprachressourcen insbesondere die Geisteswissenschaften wir sollten sie in die Lage versetzen, Ressourcen und Tools selbsttätig zu verwenden und miteinander zu kombinierendie meisten haben keinen Stab von Mitarbeitern, die clevere Konversionen etc ausführen könneneine CLARIN/D-SPIN Infrastruktur muss hier ansetzen: Schaffen einer integrierten und interoperablen Domäne von Sprachressourcen (Daten und Tools)

Slide10

Pfeiler der IntegrationTypisches

Ziel

:

Schaffen

einer virtuellen Kollektion und das Suchen nach einfachen MusternIngredienten:persistente “Repositorien” mit stabilen Diensten und ein “offener” Archivierungs Service persistente und eindeutige Identifikatoren für alle Ressourcen und Services damit alle Verweise stabil bleibengemeinsame Metadaten-Domäne basierend auf einem (flexiblen) Standard und Standards für den AustauschSingle Identity / Single Sign-On Prinzip basierend auf Vertrauen und natürlich eine clevere Suchmaschine bzw. Statistik-Tools, wobei natürlich immer die Frage ist, ob Daten oder Code transferiert werden dürfen

Slide11

Pfeiler der IntegrationIngredienten

:

persistente

Repositorien

/Archive” CLARIN hat Kriterien für solche “neuen Service-Zentren” etabliert in D haben sich DFKI, IDS, U Tüb, BBAW, U Lei, MPI gemeldet es wird ein Qualitätscheck geben (Data Seal of Approval) es wird Geld kosten persistente und eindeutige Identifikatoren für alle Ressourcen und Services CLARIN bietet einen Service an (basierend auf einer

MPG Entscheidung und Redundanz durch andere europäische

Zentren)

für jedes Object und jede Version etc kann eine URL und

verschiedene Informationen

erzeugt werden, und zurückkommt eine PID, die man in die Metadaten einträgt die kann

dann jeder verwenden und sie werden aufgelöst was

heißt persistent: MPG steht dahinter -

reicht

das?

Slide12

Pfeiler der IntegrationIngredienten

:

gemeinsame

Metadaten-Domäne

gegenwärtige Sichtbarkeit nicht ausreichend - gibt keinen echten Katalog, keine Systematik und jede Menge “Gemecker”Erfahrungen von 10 Jahren in der Community mit IMDI, OLAC und TEIweg von fixed Schema hin zu flexiblem Componenten Model semantische Interoperabilität durch die Verwendung von registrierten “Konzepten” ISOcat (ISO 12620), TEI, DCdh. jeder kann sein eigenes Schema zusammenstellen momentan arbeiten “Experten” an den Element-Definitionenund Entwickler die an der Infrastruktur arbeiten (MPI, DFKI, IDS)wir sorgen dafür, dass alle IMDI/OLAC Investitionen gewahrt bleiben jeder kann mitmachen und prüfen, ob alles drin ist

(zB. Zeichensprache)CMDI wird ein Standard in CLARIN !arbeiten

an einem “Virtual Language Observatory

Slide13

Pfeiler der IntegrationIngredienten

:

Single Identity / Single Sign-On

Prinzip

mit

Ihrer “Heimat” Identität müssen sie an all das Herankommen, zu dem Sie Zugangsberechtigung habenes ist wie bei Schlüsseln: man möchte am liebsten nur einen haben wir arbeiten eng mit dem DFN Verein zusammen wenn Ihre Uni in der DFN AAI (so heisst das) ist, dann gilt das europaweitIDS/MPI/BBAW nehmen nun an einem ersten Pilotprojekt zusammen mit NL und Finland teil

Slide14

Pfeiler der Interoperabilitättypisches

Ziel

:

Zusammenstellen

von Workflows Ingredienten für ein schwer anzupackendes Problem:Vereinbarung “standardisierter” Formate für die wesentlichen Datentypen (Text-Korpora, annotierte Medien, Lexika, etc) CLARIN macht Inventur von Format “Standards&Best Practices”Community Best Practices werden natürlich weiterleben CLARIN muss Konverter explizit und offen machenman wird nicht alles (WORD) unterstützen können offene Registratur linguistischer Konzepte

als Referenz wollen ein pragmatisches Problem

lösen (gemeinsame Suche

)keiner soll seine Konzepte aufgeben!!!

aber vielleicht

für viele Konzepte Referenzen möglich CLARIN (zusammen mit ISO) arbeitet an ISOcat

Slide15

Ist es morgen fertig?

schön

wär’s

ein steiniger und nicht einfacher Weg wenn wir jetzt aber nicht schrittweise anfangen, wann denn dann?nicht alles, was ich erzählt habe, werden Sie interessant gefunden haben, aber eines ist klar: die LRT Community ist in einigen Punkten im Moment anderen voraus

Slide16

Ist morgen schon etwas fertig

?

arbeiten

an

einer

Reihe von Dingen eine Reihe von Anforderungs Spezifikationen sind fertig nicht einfach bei 150 Mitgliedern, dh. ca. 500 Personen gemeinsame Metadaten Domäne 2009 Basis ist Language Resource and Technology Inventory Ziel ist “Virtual Language Observatory” - erster Schritt momentan alle sind aufgefordert mitzumachen erste allgemeine Service Angebote in 2009 PID Angebot steht; erste AAI Domäne in 2009 arbeiten mit Hochdruck an typischen

Workflowshier ist D-Spin zu nennenwollen

mehr Konvertoren

verfügbar machenetc

Slide17

Randbemerkungen

CLARIN/D-SPIN

ist

eine

Infrastrukturinitiative - kein Forschungsprojekt es baut auf existierenden Resourcen und Tools auf und will diese integrierendie Infrastruktur Pfeiler müssen persistent sein, Wissenschaftler müssen sich auf Dienste verlassen können wir sind nur ein Teil der ganzen Infrastruktur- Bewegung - viele Disziplinen sind involviert wir bekommen jetzt eine Chance - eine zweite wird es so schnell nicht geben wir werden von den Hardcore Kollegen etc respektiert

Slide18

Ende

Falls

nicht

to end in

Babylonish

scenario nous avons still een beten time om schattingen te improve.Danke für Ihre Aufmerksamkeit!