====== Indexirung der Wikipedia ====== ==== Files ==== NetCup Web sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/ {{ :neo4j_create.py |}} {{ :neo4j-ca6b52e9-created-2024-06-09.txt |}} {{ :scraper.py |}} {{ :wiki_client2.py |}} ==== Server ==== boothtml-media root boothtml-user@185.170.115.12134021 EpzEtKBycm2ZaeZ ssh boothtml-user@185.170.115.121 -p 34021 nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK ==== Limits ==== Without Auth: 500 per houer With Auth: 5000 per houer ==== Wiki Public Dumps ==== * sind keine gut Option aufgrund umstellichbarjeit -> keine Links (??) ==== Datenbank ==== * Graphendatenbank -> Neo4j **CONF** /etc/neo4j/neo4j.conf dbms.security.auth_enabled=false MYsql s url anzeigen: SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls; **MySql** $servername = "10.35.46.20:3306"; $username = "k115881_wiki_user"; $password = "Wn4en3^96Rect0*532"; $dbname = "k115881_wiki"; **NEO4J** NEO4J_URI = "neo4j+s:/ / ca6b52e9.databases.neo4j.io" NEO4J_USERNAME = "neo4j" NEO4J_PASSWORD = "Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc" ==== Vortrag Info ==== Auslastungen: https://stats.wikimedia.org/EN/ChartsWikipediaZZ.htm Start: 09.06.2024 https://boothtml.de/wiki/neo4j_adapter.php ==== Erkenntnisse ==== * * auf beiden sorce und target -> index anlegen * * Struktur vereinfachen für überblick * * Schwer prüfbar was passsiert (ob es so funktoniert wie soll) * * zufälligen get paramter verwenden um cahe zu umgehen * * checked feld verwenden um auf **WHERE target_url NOT IN (SELECT source_url FROM urls)** und änliche zu verzichten -> **WHERE checked = 0** * * Neo4J zeigt nicht alle node begrenzt * Keine SQLLite benutzen -> Leistungsprobleme beim gleichzeigigen schreiben + auslesen