Inhaltsverzeichnis

Indexirung der Wikipedia

Files

NetCup Web

sftp:/ /hosting129525@boothtml.de/httpdocs/BootHtml/wiki/

neo4j_create.py

neo4j-ca6b52e9-created-2024-06-09.txt

scraper.py

wiki_client2.py

Server

boothtml-media

root

boothtml-user@185.170.115.12134021

EpzEtKBycm2ZaeZ

ssh boothtml-user@185.170.115.121 -p 34021

nHzyVCc5GHF5dSzd22L4VvneEXbxdXLwFNK

Limits

Without Auth: 500 per houer

With Auth: 5000 per houer

Wiki Public Dumps

* sind keine gut Option aufgrund umstellichbarjeit → keine Links (??)

Datenbank

* Graphendatenbank → Neo4j

CONF

/etc/neo4j/neo4j.conf

dbms.security.auth_enabled=false

MYsql s url anzeigen:

SELECT COUNT(DISTINCT source_url) AS source_url_count FROM urls;

MySql

$servername = „10.35.46.20:3306“;

$username = „k115881_wiki_user“;

$password = „Wn4en3^96Rect0*532“;

$dbname = „k115881_wiki“;

NEO4J

NEO4J_URI = „neo4j+s:/ / ca6b52e9.databases.neo4j.io“

NEO4J_USERNAME = „neo4j“

NEO4J_PASSWORD = „Se4xKGKQEqJK71uLv70VWUuAfGKsrrK1iDkh68PkUyc“

Vortrag Info

Auslastungen:

https://stats.wikimedia.org/EN/ChartsWikipediaZZ.htm

Start: 09.06.2024

https://boothtml.de/wiki/neo4j_adapter.php

Erkenntnisse