DjVu-Viewer Integration: Unterschied zwischen den Versionen

Aus djvu-wiki
Zur Navigation springen Zur Suche springen
(Seite von Bash-Geframpel zu Projektbeschreibung umgeschrieben: Aufgabe, Ziele, drei Quellen, Vorgehen)
Markierung: Zurückgesetzt
 
(14 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
= DjVu-Viewer Integration =
= DjVu-Viewer Integration =
== Gitlab ==
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/17 Issue #17: DjVu Probleme im Rahmen MediaWiki 1.39 upgrade]
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/53 Issue #53: Hostsharing Server]
== Server-Topologie ==
{| class="wikitable"
! wikiId !! URL !! Standort
|-
| <code>djvu-wiki</code> || http://djvu-wiki.genealogy.net || vm2180 (dieser Server)
|-
| <code>genwiki-farm</code> || http://genwiki-farm.genealogy.net || vm2180 (dieser Server)
|-
| <code>genwiki39e</code> || http://genwiki39e.genealogy.net || vm2180 (dieser Server)
|-
| <code>genwiki39</code> || https://genwiki39.genealogy.net || separater öffentlicher Docker-Server
|-
| <code>genwiki39d</code> || http://genwiki39d.bitplan.com || fur.bitplan.com (nur Intranet)
|-
| Produktion || https://wiki.genealogy.net || hetzner
|}
== DjVu-Viewer ==
* http://djvu.bitplan.de - auf diesem Server (djvu-viewer.genealogy.net DNS Eintrag in Arbeit )
* http://djvu.bitplan.com  - fur.bitplan.com (nur Intranet)
== Hintergrund ==
* Ursprung: [https://stackoverflow.com/questions/45984437/djvu-thumbnails-werden-ueberhaupt-nicht-erzeugt DjVu-Thumbnails werden überhaupt nicht erzeugt] (2017)
* 1,5 Jahre Entwicklung → [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer] - see [https://wiki.bitplan.com/index.php/Djvu-viewer wiki.bitplan.com/Djvu-viewer]
* Grundursache: Nicht-gebündelte (indirekte) DjVu-Dateien verursachen <code>DjVuImage::getMultiPageInfo: multi-page DJVU file contained no pages</code>
* Lösung: '''Ausschließlich gebündelte DjVu-Dateien verwenden'''
* Zukünftiges Ziel: djvu-viewer liest <code>.djvu</code>-Dateien direkt ohne Tar-Pakete
== Speicherplatz-Beschränkungen ==
* vm2180 hat ~2TB — ausreichend nur für Dateien mit Präfix A/B
* 333 gebündelte A/B-Dateien haben Tar-Pakete in <code>/genwiki/djvu_images/</code>
* Originale <code>.djvu</code>-Dateien liegen auf <code>fur.bitplan.com:/hd/luxio/genwiki/images/</code>
* djvu-viewer (nur Intranet) verwendet derzeit Tar-Pakete; direkte <code>.djvu</code>-Lesefunktion geplant


== Aufgabe ==
== Aufgabe ==
Zeile 33: Zeile 72:
| GOV ([https://gov.genealogy.net SPARQL] / [https://github.com/WolfgangFahl/pyomnigraph pyomnigraph]) || Ortsverknüpfungen zu den Dokumenten || [https://github.com/WolfgangFahl/genwiki2024/blob/main/genwiki_examples/gov-queries.yaml gov-queries.yaml]
| GOV ([https://gov.genealogy.net SPARQL] / [https://github.com/WolfgangFahl/pyomnigraph pyomnigraph]) || Ortsverknüpfungen zu den Dokumenten || [https://github.com/WolfgangFahl/genwiki2024/blob/main/genwiki_examples/gov-queries.yaml gov-queries.yaml]
|}
|}
 
== Demo-Dateien ==
== Vorgehen ==
Logarithmische Seitengrößen, alle gebündelt, alle mit Dateinamen-Präfix A oder B, alle mit Tar-Paketen.
 
Hinweis: <code>AB1934-Oelde.djvu</code> enthält zwar "Oelde" im Namen, fängt aber mit '''A''' an.
<code>djvu_migration.py</code> — Teil des [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer]-Projekts — kapselt alle Schritte:
 
# Batch auswählen (z.B. <code>--prefix A</code> für alle Dateien mit Anfangsbuchstabe A)
# Drei Quellen abfragen und Ergebnisse zusammenführen
# Wiki-Seiten im djvu-wiki systematisch erstellen mit [[Vorlage:DjvuViewer]] und [[Vorlage:GOV]]
# Statistik ausgeben: erfolgreich / Fehler / übersprungen — mit Ursachen (eigenartige Codierung, unvollständige Dateien u.a.)
 
Fehlerbehandlung und Batch-Logik werden aus dem bestehenden [https://wiki.bitplan.com/index.php/Djvu-viewer djvu-viewer] übernommen.
 
== Server-Topologie ==


{| class="wikitable"
{| class="wikitable"
! wikiId !! URL !! Standort
! Datei !! Seiten !! Größe !! Hash-Pfad
|-
|-
| <code>djvu-wiki</code> || [http://djvu-wiki.genealogy.net djvu-wiki.genealogy.net] || vm2180 — Testumgebung
| <code>AB1938_Kreis-Beckum_Inhaltsverz.djvu</code> || 3 || 50 KB || <code>c/c7</code>
|-
|-
| <code>genwiki39e</code> || [http://genwiki39e.genealogy.net genwiki39e.genealogy.net] || vm2180 — zukünftiges Produktivwiki
| <code>Auenheim-Frauweiler_Dokument-1693-03-09.djvu</code> || 10 || 3,9 MB || <code>b/b8</code>
|-
|-
| <code>genwiki-farm</code> || [http://genwiki-farm.genealogy.net genwiki-farm.genealogy.net] || vm2180 — Farm-Kern
| <code>AB1934-Oelde.djvu</code> || 105 || 4,1 MB || <code>5/54</code>
|-
|-
| <code>genwiki39</code> || [https://genwiki39.genealogy.net genwiki39.genealogy.net] || separater öffentlicher Docker-Server
| <code>Adressbuch_Husum_1900.djvu</code> || 313 || 7,7 MB || <code>d/d1</code>
|-
|-
| Produktion || [https://wiki.genealogy.net wiki.genealogy.net] || Hetzner
| <code>Aachen-Burtscheit-AB-1887.djvu</code> || 676 || 57 MB || <code>a/a0</code>
|}
|}


== Gitlab ==
== Vorgehen ==
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/17 Issue #17: DjVu - temporäres Test-Wiki für DjVu-Migration]
 
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/53 Issue #53: Hostsharing Server]
<code>djvu_migration.py</code> — Teil des [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer]-Projekts — kapselt die notwendigen Migrations Schritte:
 
# Batch auswählen (z.B. <code>--prefix A</code> für alle Dateien mit Anfangsbuchstabe A)
# Drei Quellen zu den betroffenen DjVu-Dateien abfragen und Ergebnisse zusammenführen
# DjVu-Dateien unter Bewahrung der Timestamps kopieren
# Hard-Links zwischen den Wikis erstellen
# Wiki-Seiten im djvu-wiki systematisch erstellen mit [[Vorlage:DjVuViewer]] und [[Vorlage:GOV]]
# Statistik ausgeben: erfolgreich / Fehler / übersprungen — mit Ursachen (eigenartige Codierung, unvollständige Dateien u.a.)
 
Fehlerbehandlung und Batch-Logik werden aus dem bestehenden [https://wiki.bitplan.com/index.php/Djvu-viewer djvu-viewer] übernommen.


== Siehe auch ==
== Siehe auch ==

Aktuelle Version vom 20. Februar 2026, 15:44 Uhr

DjVu-Viewer Integration

Gitlab

Server-Topologie

wikiId URL Standort
djvu-wiki http://djvu-wiki.genealogy.net vm2180 (dieser Server)
genwiki-farm http://genwiki-farm.genealogy.net vm2180 (dieser Server)
genwiki39e http://genwiki39e.genealogy.net vm2180 (dieser Server)
genwiki39 https://genwiki39.genealogy.net separater öffentlicher Docker-Server
genwiki39d http://genwiki39d.bitplan.com fur.bitplan.com (nur Intranet)
Produktion https://wiki.genealogy.net hetzner

DjVu-Viewer

Hintergrund

Speicherplatz-Beschränkungen

  • vm2180 hat ~2TB — ausreichend nur für Dateien mit Präfix A/B
  • 333 gebündelte A/B-Dateien haben Tar-Pakete in /genwiki/djvu_images/
  • Originale .djvu-Dateien liegen auf fur.bitplan.com:/hd/luxio/genwiki/images/
  • djvu-viewer (nur Intranet) verwendet derzeit Tar-Pakete; direkte .djvu-Lesefunktion geplant

Aufgabe

Das GenWiki wird von MediaWiki 1.35 auf MediaWiki 1.39 LTS migriert (siehe Migration2025-11). Die DjVu-Anzeige ist eines von drei Kernproblemen dieser Migration.

Das GenWiki enthält ca. 4000 DjVu-Dateien — überwiegend genealogische Adressbücher — die mit Orten im GOV (Genealogisches Ortsverzeichnis) verknüpft sind. Ca. 50% dieser Dateien lagen unbundled vor, was zusammen mit einzeln gespeicherten Thumbnails zu einem Speicherbedarf von ~4 TB führte.

Der djvu-viewer löst dieses Problem durch Konvertierung zu gebündelten TAR-Paketen. Auf fur.bitplan.com sind die Dateien bereits vorbereitet:

  • /hd/yuyu (4 TB SSD) — konvertierte TAR-Pakete (1,8 TB), bis auf 10 Fehler vollständig
  • /hd/luxio (10 TB HDD) — gebündelte .djvu-Dateien

Da vm2180 nur ~1 TB Platz hat, werden zunächst die Dateien mit Präfix A und B (333 Dateien) übertragen. Das djvu-wiki dient als Testumgebung; Hardlinks nach genwiki39e stellen sicher dass das zukünftige Produktivwiki dieselben Dateien ohne Zusatzspeicher nutzen kann.

Ziele

  • Optische Prüfung: DjVu-Seiten werden im djvu-wiki systematisch dargestellt und sind visuell prüfbar
  • Semantische Prüfung: GOV-Verknüpfungen bleiben erhalten und sind per SMW-Query abfragbar (siehe Semantifizierung)
  • Batch-Verarbeitung: komplette Anfangsbuchstaben werden in einem Durchgang migriert, mit Statistik über Erfolge und Probleme
  • Farm-Ansatz: Die Query-Patterns sind für alle Wikis der Farm wiederverwendbar — DjVu ist ein Thema, GOV ein anderes, dasselbe Werkzeug bedient beides

Drei Quellen — eine Abfragesprache

Alle Quellen werden über named parameterized queries abgefragt — ob SQL, SPARQL oder SMW-Ask spielt keine Rolle. Das Muster kommt aus dem genwiki2024-Projekt:

Quelle Inhalt Beispiel-Queries
Wiki-Datenbank (MariaDB) Welche DjVu-Dateien und Wiki-Seiten existieren wiki_queries.yaml
DjVu-Viewer Datenbank (SQLite) Konvertierungsstatus, Seitenanzahl, Fehler, gebündelt ja/nein queries.yaml
GOV (SPARQL / pyomnigraph) Ortsverknüpfungen zu den Dokumenten gov-queries.yaml

Demo-Dateien

Logarithmische Seitengrößen, alle gebündelt, alle mit Dateinamen-Präfix A oder B, alle mit Tar-Paketen. Hinweis: AB1934-Oelde.djvu enthält zwar "Oelde" im Namen, fängt aber mit A an.

Datei Seiten Größe Hash-Pfad
AB1938_Kreis-Beckum_Inhaltsverz.djvu 3 50 KB c/c7
Auenheim-Frauweiler_Dokument-1693-03-09.djvu 10 3,9 MB b/b8
AB1934-Oelde.djvu 105 4,1 MB 5/54
Adressbuch_Husum_1900.djvu 313 7,7 MB d/d1
Aachen-Burtscheit-AB-1887.djvu 676 57 MB a/a0

Vorgehen

djvu_migration.py — Teil des djvu-viewer-Projekts — kapselt die notwendigen Migrations Schritte:

  1. Batch auswählen (z.B. --prefix A für alle Dateien mit Anfangsbuchstabe A)
  2. Drei Quellen zu den betroffenen DjVu-Dateien abfragen und Ergebnisse zusammenführen
  3. DjVu-Dateien unter Bewahrung der Timestamps kopieren
  4. Hard-Links zwischen den Wikis erstellen
  5. Wiki-Seiten im djvu-wiki systematisch erstellen mit Vorlage:DjVuViewer und Vorlage:GOV
  6. Statistik ausgeben: erfolgreich / Fehler / übersprungen — mit Ursachen (eigenartige Codierung, unvollständige Dateien u.a.)

Fehlerbehandlung und Batch-Logik werden aus dem bestehenden djvu-viewer übernommen.

Siehe auch