Indexirung der Wikipedia

NetCup Web

sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/

neo4j_create.py

neo4j-ca6b52e9-created-2024-06-09.txt

scraper.py

wiki_client2.py

boothtml-media

root

boothtml-user@185.170.115.12134021

EpzEtKBycm2ZaeZ

ssh boothtml-user@185.170.115.121 -p 34021

nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK

Without Auth: 500 per houer

With Auth: 5000 per houer

* sind keine gut Option aufgrund umstellichbarjeit → keine Links (??)

* Graphendatenbank → Neo4j

CONF

/etc/neo4j/neo4j.conf

dbms.security.auth_enabled=false

MYsql s url anzeigen:

SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls;

MySql

$servername = „10.35.46.20:3306“;

$username = „k115881_wiki_user“;

$password = „Wn4en3^96Rect0*532“;

$dbname = „k115881_wiki“;

NEO4J

NEO4J_URI = „neo4j+s:/ / ca6b52e9.databases.neo4j.io“

NEO4J_USERNAME = „neo4j“

NEO4J_PASSWORD = „Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc“

  • auf beiden sorce und target → index anlegen
  • Struktur vereinfachen für überblick
  • Schwer prüfbar was passsiert (ob es so funktoniert wie soll)
  • zufälligen get paramter verwenden um cahe zu umgehen
  • checked feld verwenden um auf WHERE target_url NOT IN (SELECT source_url FROM urls) und änliche zu verzichten → WHERE checked = 0
  • Neo4J zeigt nicht alle node begrenzt
  • Keine SQLLite benutzen → Leistungsprobleme beim gleichzeigigen schreiben + auslesen
  • wikipedia_indexirung.txt
  • Zuletzt geändert: 04:33 06/02/2026
  • von 127.0.0.1