DjVu-Viewer Integration: Unterschied zwischen den Versionen

Aus djvu-wiki
Zur Navigation springen Zur Suche springen
 
(12 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
= DjVu-Viewer Integration =
= DjVu-Viewer Integration =
== Gitlab ==
== Gitlab ==
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/17 Issue #17: DjVu - temporäres Test-Wiki für DjVu-Migration]
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/17 Issue #17: DjVu Probleme im Rahmen MediaWiki 1.39 upgrade]
* [https://gitlab.genealogy.net/genwiki/update-auf-1.39/-/issues/53 Issue #53: Hostsharing Server]


== Server-Topologie ==
== Server-Topologie ==
Zeile 18: Zeile 18:
|-
|-
| <code>genwiki39d</code> || http://genwiki39d.bitplan.com || fur.bitplan.com (nur Intranet)
| <code>genwiki39d</code> || http://genwiki39d.bitplan.com || fur.bitplan.com (nur Intranet)
|-
| <code>djvu-viewer</code> || http://djvu.bitplan.com || fur.bitplan.com (nur Intranet)
|-
|-
| Produktion || https://wiki.genealogy.net || hetzner  
| Produktion || https://wiki.genealogy.net || hetzner  
|}
|}
== DjVu-Viewer ==
* http://djvu.bitplan.de - auf diesem Server (djvu-viewer.genealogy.net DNS Eintrag in Arbeit )
* http://djvu.bitplan.com  - fur.bitplan.com (nur Intranet)


== Hintergrund ==
== Hintergrund ==
Zeile 39: Zeile 40:
* djvu-viewer (nur Intranet) verwendet derzeit Tar-Pakete; direkte <code>.djvu</code>-Lesefunktion geplant
* djvu-viewer (nur Intranet) verwendet derzeit Tar-Pakete; direkte <code>.djvu</code>-Lesefunktion geplant


== Aufgabe ==
Das [https://wiki.genealogy.net GenWiki] wird von [https://www.mediawiki.org/wiki/MediaWiki_1.35/de MediaWiki 1.35] auf [https://www.mediawiki.org/wiki/MediaWiki_1.39/de MediaWiki 1.39 LTS] migriert (siehe [https://genwiki39.genealogy.net/Migration2025-11 Migration2025-11]). Die '''DjVu-Anzeige''' ist eines von drei Kernproblemen dieser Migration.
Das GenWiki enthält ca. 4000 DjVu-Dateien — überwiegend genealogische Adressbücher — die mit Orten im [https://gov.genealogy.net GOV (Genealogisches Ortsverzeichnis)] verknüpft sind. Ca. 50% dieser Dateien lagen unbundled vor, was zusammen mit einzeln gespeicherten Thumbnails zu einem Speicherbedarf von ~4 TB führte.
Der [https://wiki.bitplan.com/index.php/Djvu-viewer djvu-viewer] löst dieses Problem durch Konvertierung zu gebündelten TAR-Paketen. Auf <code>fur.bitplan.com</code> sind die Dateien bereits vorbereitet:
* <code>/hd/yuyu</code> (4 TB SSD) — konvertierte TAR-Pakete (1,8 TB), bis auf 10 Fehler vollständig
* <code>/hd/luxio</code> (10 TB HDD) — gebündelte <code>.djvu</code>-Dateien
Da vm2180 nur ~1 TB Platz hat, werden zunächst die Dateien mit Präfix '''A und B''' (333 Dateien) übertragen. Das [[Hauptseite|djvu-wiki]] dient als Testumgebung; Hardlinks nach <code>genwiki39e</code> stellen sicher dass das zukünftige Produktivwiki dieselben Dateien ohne Zusatzspeicher nutzen kann.
== Ziele ==
* '''Optische Prüfung''': DjVu-Seiten werden im djvu-wiki systematisch dargestellt und sind visuell prüfbar
* '''Semantische Prüfung''': GOV-Verknüpfungen bleiben erhalten und sind per SMW-Query abfragbar (siehe [[Semantifizierung]])
* '''Batch-Verarbeitung''': komplette Anfangsbuchstaben werden in einem Durchgang migriert, mit Statistik über Erfolge und Probleme
* '''Farm-Ansatz''': Die Query-Patterns sind für alle Wikis der Farm wiederverwendbar — DjVu ist ein Thema, GOV ein anderes, dasselbe Werkzeug bedient beides
== Drei Quellen — eine Abfragesprache ==
Alle Quellen werden über '''named parameterized queries''' abgefragt — ob SQL, SPARQL oder SMW-Ask spielt keine Rolle. Das Muster kommt aus dem [https://github.com/WolfgangFahl/genwiki2024 genwiki2024]-Projekt:
{| class="wikitable"
! Quelle !! Inhalt !! Beispiel-Queries
|-
| Wiki-Datenbank (MariaDB) || Welche DjVu-Dateien und Wiki-Seiten existieren || [https://github.com/WolfgangFahl/genwiki2024/blob/main/genwiki_examples/wiki_queries.yaml wiki_queries.yaml]
|-
| DjVu-Viewer Datenbank (SQLite) || Konvertierungsstatus, Seitenanzahl, Fehler, gebündelt ja/nein || [https://github.com/WolfgangFahl/genwiki2024/blob/main/genwiki_examples/queries.yaml queries.yaml]
|-
| GOV ([https://gov.genealogy.net SPARQL] / [https://github.com/WolfgangFahl/pyomnigraph pyomnigraph]) || Ortsverknüpfungen zu den Dokumenten || [https://github.com/WolfgangFahl/genwiki2024/blob/main/genwiki_examples/gov-queries.yaml gov-queries.yaml]
|}
== Demo-Dateien ==
== Demo-Dateien ==
Logarithmische Seitengrößen, alle gebündelt, alle mit Dateinamen-Präfix A oder B, alle mit Tar-Paketen.
Logarithmische Seitengrößen, alle gebündelt, alle mit Dateinamen-Präfix A oder B, alle mit Tar-Paketen.
Zeile 57: Zeile 90:
|}
|}


== djvu-setup.sh ==
== Vorgehen ==
Ein Skript unter <code>/home/wf/djvu-wiki/djvu-setup.sh</code> automatisiert die Schritte 1, 3 und 4.
 
=== Befehlsreihenfolge (muss in dieser Reihenfolge ausgeführt werden) ===
==== Vorschau welche Dateien verarbeitet werden ====
<syntaxhighlight lang="bash" highlight="1">
./djvu-setup.sh --list
Demo files selected from database:
 
File                                                      Pages        MB Range
----                                                      -----        -- -----
AB-Koeln-1929-1.djvu                                        1622      637.7 huge
AC-AB-1955-56.djvu                                          585      446.5 large
Almanach_1903_T2.djvu                                        144        1.6 medium
AB-LK-AC_1927_C_Alsdorf.djvu                                  34        1.7 small
Amtsblatt-RM1870_Register.djvu                                9        2.9 tiny
</syntaxhighlight>
 
==== scp-Befehle ausgeben um Dateien von fur zu kopieren (auf fur.bitplan.com ausführen ====
<syntaxhighlight lang="bash" highlight="1">
./djvu-setup.sh --scp
# Run on source machine (where /hd/luxio/genwiki/images exists):
VM=wf@vm2180.hostsharing.net:/var/www/mediawiki/sites/djvu-wiki.genealogy.net/images
 
scp -p /hd/luxio/genwiki/images/8/8d/AB-Koeln-1929-1.djvu $VM/8/8d/
scp -p /hd/luxio/genwiki/images/c/c0/AC-AB-1955-56.djvu $VM/c/c0/
scp -p /hd/luxio/genwiki/images/b/bd/Almanach_1903_T2.djvu $VM/b/bd/
scp -p /hd/luxio/genwiki/images/0/01/AB-LK-AC_1927_C_Alsdorf.djvu $VM/0/01/
scp -p /hd/luxio/genwiki/images/5/5a/Amtsblatt-RM1870_Register.djvu $VM/5/5a/
 
AB-Koeln-1929-1.djvu                                                                        100%  638MB  23.3MB/s  00:27   
AC-AB-1955-56.djvu                                                                          100%  447MB  22.9MB/s  00:19   
Almanach_1903_T2.djvu                                                                      100% 1659KB  5.4MB/s  00:00   
AB-LK-AC_1927_C_Alsdorf.djvu                                                                100% 1691KB  5.6MB/s  00:00   
Amtsblatt-RM1870_Register.djvu                                                              100% 3011KB  7.4MB/s  00:00   
 
</syntaxhighlight>


==== Nach scp: Verzeichnisse erstellen und Hardlinks in genwiki39e ====
<code>djvu_migration.py</code> — Teil des [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer]-Projekts — kapselt die notwendigen Migrations Schritte:
<syntaxhighlight lang="bash" highlight="1">
sudo ./djvu-setup.sh --link
Creating directories and hardlinks...
</syntaxhighlight>


==== Dateien in MediaWiki registrieren ====
# Batch auswählen (z.B. <code>--prefix A</code> für alle Dateien mit Anfangsbuchstabe A)
<syntaxhighlight lang="bash" highlight="1">
# Drei Quellen zu den betroffenen DjVu-Dateien abfragen und Ergebnisse zusammenführen
sudo ./djvu-setup.sh --import
# DjVu-Dateien unter Bewahrung der Timestamps kopieren
</syntaxhighlight>
# Hard-Links zwischen den Wikis erstellen
# Wiki-Seiten im djvu-wiki systematisch erstellen mit [[Vorlage:DjVuViewer]] und [[Vorlage:GOV]]
# Statistik ausgeben: erfolgreich / Fehler / übersprungen — mit Ursachen (eigenartige Codierung, unvollständige Dateien u.a.)


Oder <code>--all</code> für Schritte 3+4:
Fehlerbehandlung und Batch-Logik werden aus dem bestehenden [https://wiki.bitplan.com/index.php/Djvu-viewer djvu-viewer] übernommen.
<pre>
sudo ./djvu-setup.sh --all  # --link + --import
</pre>


== Siehe auch ==
== Siehe auch ==
* [[Hauptseite]] - Übersicht des djvu-wiki
* [[Semantifizierung]]
* [[Hauptseite]]
* [https://wiki.bitplan.com/index.php/Djvu-viewer djvu-viewer Dokumentation (BITPlan Wiki)]
* [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer auf GitHub]
* [https://github.com/WolfgangFahl/djvu-viewer djvu-viewer auf GitHub]
* [https://wiki.bitplan.com/index.php/Djvu-viewer Djvu-viewer Dokumentation (BITPlan Wiki)]
* [https://github.com/WolfgangFahl/genwiki2024 genwiki2024 auf GitHub]
* [https://stackoverflow.com/questions/45984437/djvu-thumbnails-werden-ueberhaupt-nicht-erzeugt Ursprüngliche Problemstellung (StackOverflow)]
* [https://stackoverflow.com/questions/45984437/djvu-thumbnails-werden-ueberhaupt-nicht-erzeugt Ursprüngliche Problemstellung (StackOverflow 2017)]

Aktuelle Version vom 20. Februar 2026, 15:44 Uhr

DjVu-Viewer Integration

Gitlab

Server-Topologie

wikiId URL Standort
djvu-wiki http://djvu-wiki.genealogy.net vm2180 (dieser Server)
genwiki-farm http://genwiki-farm.genealogy.net vm2180 (dieser Server)
genwiki39e http://genwiki39e.genealogy.net vm2180 (dieser Server)
genwiki39 https://genwiki39.genealogy.net separater öffentlicher Docker-Server
genwiki39d http://genwiki39d.bitplan.com fur.bitplan.com (nur Intranet)
Produktion https://wiki.genealogy.net hetzner

DjVu-Viewer

Hintergrund

Speicherplatz-Beschränkungen

  • vm2180 hat ~2TB — ausreichend nur für Dateien mit Präfix A/B
  • 333 gebündelte A/B-Dateien haben Tar-Pakete in /genwiki/djvu_images/
  • Originale .djvu-Dateien liegen auf fur.bitplan.com:/hd/luxio/genwiki/images/
  • djvu-viewer (nur Intranet) verwendet derzeit Tar-Pakete; direkte .djvu-Lesefunktion geplant

Aufgabe

Das GenWiki wird von MediaWiki 1.35 auf MediaWiki 1.39 LTS migriert (siehe Migration2025-11). Die DjVu-Anzeige ist eines von drei Kernproblemen dieser Migration.

Das GenWiki enthält ca. 4000 DjVu-Dateien — überwiegend genealogische Adressbücher — die mit Orten im GOV (Genealogisches Ortsverzeichnis) verknüpft sind. Ca. 50% dieser Dateien lagen unbundled vor, was zusammen mit einzeln gespeicherten Thumbnails zu einem Speicherbedarf von ~4 TB führte.

Der djvu-viewer löst dieses Problem durch Konvertierung zu gebündelten TAR-Paketen. Auf fur.bitplan.com sind die Dateien bereits vorbereitet:

  • /hd/yuyu (4 TB SSD) — konvertierte TAR-Pakete (1,8 TB), bis auf 10 Fehler vollständig
  • /hd/luxio (10 TB HDD) — gebündelte .djvu-Dateien

Da vm2180 nur ~1 TB Platz hat, werden zunächst die Dateien mit Präfix A und B (333 Dateien) übertragen. Das djvu-wiki dient als Testumgebung; Hardlinks nach genwiki39e stellen sicher dass das zukünftige Produktivwiki dieselben Dateien ohne Zusatzspeicher nutzen kann.

Ziele

  • Optische Prüfung: DjVu-Seiten werden im djvu-wiki systematisch dargestellt und sind visuell prüfbar
  • Semantische Prüfung: GOV-Verknüpfungen bleiben erhalten und sind per SMW-Query abfragbar (siehe Semantifizierung)
  • Batch-Verarbeitung: komplette Anfangsbuchstaben werden in einem Durchgang migriert, mit Statistik über Erfolge und Probleme
  • Farm-Ansatz: Die Query-Patterns sind für alle Wikis der Farm wiederverwendbar — DjVu ist ein Thema, GOV ein anderes, dasselbe Werkzeug bedient beides

Drei Quellen — eine Abfragesprache

Alle Quellen werden über named parameterized queries abgefragt — ob SQL, SPARQL oder SMW-Ask spielt keine Rolle. Das Muster kommt aus dem genwiki2024-Projekt:

Quelle Inhalt Beispiel-Queries
Wiki-Datenbank (MariaDB) Welche DjVu-Dateien und Wiki-Seiten existieren wiki_queries.yaml
DjVu-Viewer Datenbank (SQLite) Konvertierungsstatus, Seitenanzahl, Fehler, gebündelt ja/nein queries.yaml
GOV (SPARQL / pyomnigraph) Ortsverknüpfungen zu den Dokumenten gov-queries.yaml

Demo-Dateien

Logarithmische Seitengrößen, alle gebündelt, alle mit Dateinamen-Präfix A oder B, alle mit Tar-Paketen. Hinweis: AB1934-Oelde.djvu enthält zwar "Oelde" im Namen, fängt aber mit A an.

Datei Seiten Größe Hash-Pfad
AB1938_Kreis-Beckum_Inhaltsverz.djvu 3 50 KB c/c7
Auenheim-Frauweiler_Dokument-1693-03-09.djvu 10 3,9 MB b/b8
AB1934-Oelde.djvu 105 4,1 MB 5/54
Adressbuch_Husum_1900.djvu 313 7,7 MB d/d1
Aachen-Burtscheit-AB-1887.djvu 676 57 MB a/a0

Vorgehen

djvu_migration.py — Teil des djvu-viewer-Projekts — kapselt die notwendigen Migrations Schritte:

  1. Batch auswählen (z.B. --prefix A für alle Dateien mit Anfangsbuchstabe A)
  2. Drei Quellen zu den betroffenen DjVu-Dateien abfragen und Ergebnisse zusammenführen
  3. DjVu-Dateien unter Bewahrung der Timestamps kopieren
  4. Hard-Links zwischen den Wikis erstellen
  5. Wiki-Seiten im djvu-wiki systematisch erstellen mit Vorlage:DjVuViewer und Vorlage:GOV
  6. Statistik ausgeben: erfolgreich / Fehler / übersprungen — mit Ursachen (eigenartige Codierung, unvollständige Dateien u.a.)

Fehlerbehandlung und Batch-Logik werden aus dem bestehenden djvu-viewer übernommen.

Siehe auch