Indexirung der Wikipedia
Files
NetCup Web
sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/
Server
boothtml-media
root
boothtml-user@185.170.115.12134021
EpzEtKBycm2ZaeZ
ssh boothtml-user@185.170.115.121 -p 34021
nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK
Limits
Without Auth: 500 per houer
With Auth: 5000 per houer
Wiki Public Dumps
* sind keine gut Option aufgrund umstellichbarjeit → keine Links (??)
Datenbank
* Graphendatenbank → Neo4j
CONF
/etc/neo4j/neo4j.conf
dbms.security.auth_enabled=false
MYsql s url anzeigen:
SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls;
MySql
$servername = „10.35.46.20:3306“;
$username = „k115881_wiki_user“;
$password = „Wn4en3^96Rect0*532“;
$dbname = „k115881_wiki“;
NEO4J
NEO4J_URI = „neo4j+s:/ / ca6b52e9.databases.neo4j.io“
NEO4J_USERNAME = „neo4j“
NEO4J_PASSWORD = „Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc“
Vortrag Info
Erkenntnisse
- auf beiden sorce und target → index anlegen
- Struktur vereinfachen für überblick
- Schwer prüfbar was passsiert (ob es so funktoniert wie soll)
- zufälligen get paramter verwenden um cahe zu umgehen
- checked feld verwenden um auf WHERE target_url NOT IN (SELECT source_url FROM urls) und änliche zu verzichten → WHERE checked = 0
- Neo4J zeigt nicht alle node begrenzt
- Keine SQLLite benutzen → Leistungsprobleme beim gleichzeigigen schreiben + auslesen