Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
wikipedia_indexirung [13:24 09/06/2024] – [Datenbank] boothtmlwikipedia_indexirung [04:33 06/02/2026] (aktuell) – Externe Bearbeitung 127.0.0.1
Zeile 1: Zeile 1:
 +====== Indexirung der Wikipedia ======
  
 +==== Files ====
 +
 +NetCup Web
 +
 +sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/
 +
 +{{ :neo4j_create.py |}}
 +
 +{{ :neo4j-ca6b52e9-created-2024-06-09.txt |}}
 +
 +{{ :scraper.py |}}
 +
 +{{ :wiki_client2.py |}}
 +==== Server ====
 +
 +boothtml-media
 +
 +root
 +
 +boothtml-user@185.170.115.12134021
 +
 +EpzEtKBycm2ZaeZ
 +
 +ssh boothtml-user@185.170.115.121 -p 34021
 +
 +nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK
 +==== Limits ====
 +
 +
 +Without Auth: 500 per houer
 +
 +With Auth: 5000 per houer
 +
 +
 +
 +==== Wiki Public Dumps ====
 +
 +
 +
 +* sind keine gut Option aufgrund umstellichbarjeit -> keine Links (??)
 +
 +
 +
 +
 +==== Datenbank ====
 +
 +* Graphendatenbank -> Neo4j
 +
 +**CONF**
 +
 +/etc/neo4j/neo4j.conf 
 +
 +dbms.security.auth_enabled=false
 +
 +MYsql s url anzeigen:
 +
 +SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls;
 +
 +**MySql**
 +
 +$servername = "10.35.46.20:3306";
 +
 +$username = "k115881_wiki_user";
 +
 +$password = "Wn4en3^96Rect0*532";
 +
 +$dbname = "k115881_wiki";
 +
 +**NEO4J**
 +
 +NEO4J_URI = "neo4j+s:/ / ca6b52e9.databases.neo4j.io"
 +
 +NEO4J_USERNAME = "neo4j"
 +
 +NEO4J_PASSWORD = "Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc"
 +
 +
 +==== Vortrag Info ====
 +
 +Auslastungen:
 +
 +https://stats.wikimedia.org/EN/ChartsWikipediaZZ.htm
 +
 +Start: 09.06.2024
 +
 +https://boothtml.de/wiki/neo4j_adapter.php
 +
 +==== Erkenntnisse ====
 +  * 
 +  * auf beiden sorce und target -> index anlegen
 +  * 
 +  * Struktur vereinfachen für überblick
 +  * 
 +  * Schwer prüfbar was passsiert (ob es so funktoniert wie soll)
 +  * 
 +  * zufälligen get paramter verwenden um cahe zu umgehen
 +  * 
 +  * checked feld verwenden um auf **WHERE target_url NOT IN (SELECT source_url FROM urls)**  und änliche zu verzichten -> **WHERE checked = 0**
 +  * 
 +  * Neo4J zeigt nicht alle node begrenzt
 +  * Keine SQLLite benutzen -> Leistungsprobleme beim gleichzeigigen schreiben + auslesen