Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
| Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
| wikipedia_indexirung [01:18 07/06/2024] – boothtml | wikipedia_indexirung [04:33 06/02/2026] (aktuell) – Externe Bearbeitung 127.0.0.1 | ||
|---|---|---|---|
| Zeile 1: | Zeile 1: | ||
| + | ====== Indexirung der Wikipedia ====== | ||
| + | ==== Files ==== | ||
| + | |||
| + | NetCup Web | ||
| + | |||
| + | sftp:/ / | ||
| + | |||
| + | {{ : | ||
| + | |||
| + | {{ : | ||
| + | |||
| + | {{ :scraper.py |}} | ||
| + | |||
| + | {{ : | ||
| + | ==== Server ==== | ||
| + | |||
| + | boothtml-media | ||
| + | |||
| + | root | ||
| + | |||
| + | boothtml-user@185.170.115.12134021 | ||
| + | |||
| + | EpzEtKBycm2ZaeZ | ||
| + | |||
| + | ssh boothtml-user@185.170.115.121 -p 34021 | ||
| + | |||
| + | nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK | ||
| + | ==== Limits ==== | ||
| + | |||
| + | |||
| + | Without Auth: 500 per houer | ||
| + | |||
| + | With Auth: 5000 per houer | ||
| + | |||
| + | |||
| + | |||
| + | ==== Wiki Public Dumps ==== | ||
| + | |||
| + | |||
| + | |||
| + | * sind keine gut Option aufgrund umstellichbarjeit -> keine Links (??) | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ==== Datenbank ==== | ||
| + | |||
| + | * Graphendatenbank -> Neo4j | ||
| + | |||
| + | **CONF** | ||
| + | |||
| + | / | ||
| + | |||
| + | dbms.security.auth_enabled=false | ||
| + | |||
| + | MYsql s url anzeigen: | ||
| + | |||
| + | SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls; | ||
| + | |||
| + | **MySql** | ||
| + | |||
| + | $servername = " | ||
| + | |||
| + | $username = " | ||
| + | |||
| + | $password = " | ||
| + | |||
| + | $dbname = " | ||
| + | |||
| + | **NEO4J** | ||
| + | |||
| + | NEO4J_URI = " | ||
| + | |||
| + | NEO4J_USERNAME = " | ||
| + | |||
| + | NEO4J_PASSWORD = " | ||
| + | |||
| + | |||
| + | ==== Vortrag Info ==== | ||
| + | |||
| + | Auslastungen: | ||
| + | |||
| + | https:// | ||
| + | |||
| + | Start: 09.06.2024 | ||
| + | |||
| + | https:// | ||
| + | |||
| + | ==== Erkenntnisse ==== | ||
| + | * | ||
| + | * auf beiden sorce und target -> index anlegen | ||
| + | * | ||
| + | * Struktur vereinfachen für überblick | ||
| + | * | ||
| + | * Schwer prüfbar was passsiert (ob es so funktoniert wie soll) | ||
| + | * | ||
| + | * zufälligen get paramter verwenden um cahe zu umgehen | ||
| + | * | ||
| + | * checked feld verwenden um auf **WHERE target_url NOT IN (SELECT source_url FROM urls)** | ||
| + | * | ||
| + | * Neo4J zeigt nicht alle node begrenzt | ||
| + | * Keine SQLLite benutzen -> Leistungsprobleme beim gleichzeigigen schreiben + auslesen | ||