Benutzer:T. Wirbitzki/Defekte externe Links

Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 23. September 2024 um 09:59 Uhr durch T. Wirbitzki (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Im November 2022 stieß ich beim Lesen des Artikels Rechtsförmlichkeit auf einen defekten Link eines polnisches Amtsblatts. Bald merkte ich, dass das kein Einzelfall war, hunderte von Links auf die Amtsblätter Dziennik Ustaw und Monitor Polski waren betroffen. Dass es viele Links auf die polnischen Amtsblätter in der WP gibt, ist bereits 2014 aufgefallen, siehe Wikipedia:WikiProjekt Weblinkwartung/Domains im Fokus/ANR mehr als 70 Links pro Pfad.

Anzahlen von Ende Dezember 2022.

nicht mehr unterstützte Subdomain „prawo.sejm.gov.pl“

Insgesamt: 384, davon 374 im ANR.
283 http://prawo.sejm.gov.pl/isap.nsf/DocDetails.xsp?id=WDU; Verlinkung von PDFs: 11 http://prawo.sejm.gov.pl/isap.nsf/download.xsp/WDU
68 http://prawo.sejm.gov.pl/isap.nsf/DocDetails.xsp?id=WMP; Verlinkung von PDFs: 22 http://prawo.sejm.gov.pl/isap.nsf/download.xsp/WMP

defekte URL „isap.sejm.gov.pl/DetailsServlet“

Insgesamt: 873, davon 849 im ANR.
673 http://isap.sejm.gov.pl/DetailsServlet?id=WDU
200 http://isap.sejm.gov.pl/DetailsServlet?id=WMP

defekte URLs „isap.sejm.gov.pl/Download“, „isap.sejm.gov.pl/VolumeServlet“

Insgesamt: 22, davon alle im ANR.
10 http://isap.sejm.gov.pl/Download?id=WDU
11 http://isap.sejm.gov.pl/Download?id=WMP
1 http://isap.sejm.gov.pl/VolumeServlet?type=wdu

nicht mehr unterstützte Subdomain „isip.sejm.gov.pl“

3 insource:/http\:\/\/isip.sejm.gov.pl\/servlet\/Search\?todo\=open\&id\=W../

„wackelige“ URLs „www.dziennikustaw.gov.pl“ und „www.monitorpolski.gov.pl“

Die DNS-Auflösung scheint nicht immer zu funktionieren. Das führt dazu, dass ich mit meinem PC manchmal Zugriff habe, manchmal nicht. Der Chrome-Browser meldet Anfang Dezember mehrmals DNS_PROBE_FINISHED_NXDOMAIN.

11x http://www.dziennikustaw.gov.pl und 7x http://www.monitorpolski.gov.pl

Hier bleibt abzuwarten, wie sich das entwickelt. 18 Links wären relativ leicht manuell zu reparieren, wenn nötig. Notiz vom 14.12.22: Heute waren diese Links wieder erreichbar.

Drei verschiedene aktuelle Datenbanken

Zurzeit kann ein und dasselbe Dokument auf drei unterschiedlichen staatlichen Seiten betrachtet werden.

Beispiel: das 425. im Jahr 2019 veröffentlichte Dokument im Dziennik Ustaw

  1. isap.sejm.gov.pl/isap.nsf/DocDetails.xsp?id=WDU20190000425
  2. eli.gov.pl/eli/DU/2019/425
  3. dziennikustaw.gov.pl/DU/2019/425

Es ist m.E. nicht voraussagbar, welche dieser Herausgeber bzw. Adressen in 5 Jahren existiert, oder welche weitere noch. Das spricht für eine Vorlage, um bei Änderungen schnell und einfach mehrere hunderte Links nachziehen zu können. Es gibt darüber hinaus auch einige Privatanbieter, deren kostenfreier Zugang mir nicht stabiler erscheint als der der Verwaltungsseiten.

Behebung

Es gibt zahlreiche Fußnoten mit einer Kurzversion wie z.B. dieser:

<ref>[http://isap.sejm.gov.pl/DetailsServlet?id=WDU19540430191 Dz.U. 1954 nr 43 poz. 191]</ref>

Das kann automatisch durch die (hier diskutierte) neue Vorlage:Dziennik Ustaw ersetzt werden zu

<ref>{{Dziennik Ustaw|kurz=1|jahr=1954|nr=43|pos=191|abruf=2022-12-13}}</ref>

Analog wurde für das zweite bedeutende Amtsblatt die Vorlage Vorlage:Monitor Polski erstellt.

Einige Fußnoten wurden mit ausführlichen Beschreibungen durchgeführt, die auch Seitenangaben enthalten:, siehe z.B. Wahlkreis Nr. 1 (Senat der Republik Polen, 2001–2011). Hier halte ich eine automatische Umstellung der gesamten Fußnote für zu aufwändig.

Auf Wikipedia:Bots/Anfragen habe ich eine Anfrage zur automatischen Reparatur der Links gestellt. Einige Dutzend Links der komplizierten Sorte wurden vorher per Hand behoben. Durch die Bot-Skripte konnten hunderte von Links umgestellt werden. Nachdem zunächst defekte Links mit dem Muster [<URL> <Name>] behandelt wurden, kommen zum Schluss im März '23 die Links dran, die Vorlagen wie die Internetquelle nutzen: insource:/\=http\:\/\/(isap\.sejm\.gov\.pl\/DetailsServlet|prawo\.sejm\.gov\.pl\/isap.nsf\/DocDetails.xsp)\?id\=W../.

Ein gutes Tool zur Pflege von Vorlagenverwendungen ist die „Vorlagensuche“:

Siehe Wikipedia:Bots/Anfragen/Archiv/2023-1#Änderung der URL auf Artikel der Gedanopedia.

Die Materialien der ehemaligen Webseite verwaltungsgeschichte.de werden als Beleg für historische Einwohnerzahlen zwischen den Weltkriegen verwendet. Die Seite ist nur noch in Form von Kopien zugänglich, weswegen vor Jahren eine Vorlage:Verwaltungsgeschichte.de eingerichtet worden ist. Defekte Links auf Vorläufer der Seite (literad.de, geschichte-on-demand.de) habe ich mit Hilfe der Vorlage behoben.

Im April 2023 änderte der Betreiber der Kopie der Seite die Adresse des Servers von treemagic.org auf eirenicon.com, was zu Hunderten defekten Links führte, denn nicht alle Verweise verwendeten die Vorlage. Eine Bot-Aktion half bei der Bereinigung mit. Die Idee, die Vorlage komplett oder teilweise nicht mehr auf die aktuelle Kopie, sondern auf das Archiv verweisen zu lassen, wurde nach Diskussion mit einem anderen Benutzer verworfen. Im Oktober 2023 wurden die letzten noch liegen gebliebenen Fälle mit dem Werkzeug PAWS abgearbeitet.

Ca. 230 Linkziele von Darstellern und Sprechern der synchrondatenbank.de wurden mehrere Jahre lang öfters auf dem Server geändert. Nach Diskussion und darauf folgender Korrespondenz mit dem Betreiber der Datenbank führte dieser im September 2023 Permalinks ein, so dass es sich lohnte, die Links auf die Ziele noch einmal zu ändern.

Anfang 2024 stellte sich heraus, dass Zeitschriften einer Mediengruppe URLs auf Artikel geändert haben. Über 1700 Links konnten automatisiert repariert werden, einige hundert Links blieben für die manuelle Prüfung übrig. Kandidaten für defekte Links sind z. B. Thüringer Allgemeine einfache Links oder auch Thüringer Allgemeine Internetlinks mit HTTP (Variante), Ostthüringer Zeitung und Thüringer Landeszeitung.

Bei der Umarbeitung stellte sich heraus, dass zahlreiche dieser Zeitschriftenartikel in der Zwischenzeit nurmehr durch eine Bezahlschranke zugänglich sind, nachdem sie zum Teil jahrelang frei zugänglich gewesen waren. Fußnoten und Online-Angaben von Literatur mit Bezahlschranke werden toleriert (im Gegensatz zu Weblinks, wo das verpönt ist). Gemäß einer Diskussion ersetze ich nachträglich mit Bezahlschranke versehene Artikel nicht durch Archivlinks, sondern vermerke in der Diskussion des Artikels, dass es Archivlinks gibt. Siehe hierzu auch folgende Diskussion.

Im Frühjahr 2024 zeigte sich, dass noch weitere Zeitschriften der gleichen Verlagsgruppe ähnliche Änderungen von Links durchgeführt haben, die zu defekten Links in WP-Artikeln führten. Auch hier konnte ein Teil der Links durch einen Botlauf bereinigt werden.

Mithilfe von PAWS stellte ich im April 2024 defekte Links der Zeitung analyse & kritik um, z. B. von https://akweb.de/ak_s/ak584/24.htm auf https://archiv.akweb.de/ak_s/ak584/24.htm. Im Juni/Juli 2024 konnten veraltete Links auf eine Protein-Datenbank auf eine Vorlage umgestellt werden.

Im Sommer 2024 fiel mir auf, dass zahlreiche Links auf eine Mediengruppe mit Weiterleitungen versehen sind. Hier besteht die Gefahr, dass die Websites die Weiterleitungen abbauen, so dass die Links nicht mehr erreicht werden. In einen Bot wurde die Pflege dieser Weiterleitungen im Rahmen von Routinetätigkeiten eingebaut.