Indexirung der Wikipedia

NetCup Web

sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/

boothtml-media

root

boothtml-user@185.170.115.12134021

EpzEtKBycm2ZaeZ

ssh boothtml-user@185.170.115.121 -p 34021

nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK

Without Auth: 500 per houer

With Auth: 5000 per houer

* sind keine gut Option aufgrund umstellichbarjeit → keine Links (??)

* Graphendatenbank → Neo4j

CONF

/etc/neo4j/neo4j.conf

dbms.security.auth_enabled=false

MYsql s url anzeigen:

SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls;

MySql

$servername = „10.35.46.20:3306“;

$username = „k115881_wiki_user“;

$password = „Wn4en3^96Rect0*532“;

$dbname = „k115881_wiki“;

NEO4J

NEO4J_URI = „neo4j+s:/ / ca6b52e9.databases.neo4j.io“

NEO4J_USERNAME = „neo4j“

NEO4J_PASSWORD = „Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc“

Auslastungen:

Start: 09.06.2024

auf beiden sorce und target → index anlegen
Struktur vereinfachen für überblick
Schwer prüfbar was passsiert (ob es so funktoniert wie soll)
zufälligen get paramter verwenden um cahe zu umgehen
checked feld verwenden um auf WHERE target_url NOT IN (SELECT source_url FROM urls) und änliche zu verzichten → WHERE checked = 0
Neo4J zeigt nicht alle node begrenzt
Keine SQLLite benutzen → Leistungsprobleme beim gleichzeigigen schreiben + auslesen