Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Jan · 2. Apr 2026, 10:36

Carter T R hat geschrieben: zum Beitrag navigieren2. Apr 2026, 10:16 Interessantes Experiment, aber die genutzte KI kann offensichtlich nicht zwischen Inhalten, die tatsächlich von einem User stammen (also "Zitaten"), und Zitaten von anderen Usern, die per Zitatfunktion in einem Post gelandet sind, unterscheiden. Das ist nicht nur unglücklich, sondern führt auch zu Fehldarstellungen und falsch zugeordneten Zitaten. Wenn User X bspw. totalen Bullshit schreibt, ich diesen zitiere und dann in meinem Beitrag richtigstelle, wird der zitierte Bullshit von der KI mir als Zitat untergejubelt (ebenso wie die Richtigstellung). Das ist ein Extrembeispiel, aber ich habe in Verbindung mit meinem Namen häufiger Aussagen gefunden, die NICHT von mir stammen als Aussagen, die TATSÄCHLICH von mir stammen.

Ich schließe mich @Netzokhul daher an - wenn auch nur eingeschränkt - und bitte darum, alle mir zugeschrieben Zitate, die nicht von mir stammen, zu entfernen. Ja, das bringt redaktionellen Aufwand mit sich, ist mir klar, wenn du den nicht bringen möchtest, dann entferne einfach alle Nennungen in Zusammenhang mit meinem Namen.

Guter Hinweis, danke! Setze mich ran und versuch das mal (programmatisch) zu lösen.

Jan · 2. Apr 2026, 11:00

@Carter T R Kurzes Update: Hab mir das angeschaut. Du hattest recht, die phpBB Blockquotes wurden beim Parsen nicht sauber vom eigenen Content getrennt. Konkret bei dir: Der "Hard Days Hard, Easy Days Easy" Wochenplan war Tobeass, nicht du. Das wurde dir fälschlich zugeschrieben. Ist korrigiert.

Deine tatsächlichen Zitate ("Rest Day fehlt komplett, davon würde ich abraten" und "Grundsätzlich solltest du dir an den Double Days Gedanken über deine Prioritäten machen") hab ich gegen die Originalposts verifiziert, die stimmen.

Falls dir noch was auffällt wo dir Zitate untergeschoben wurden: kurze Nachricht reicht, wird sofort angepasst. Gleiches gilt für @Netzokhul und alle anderen, deren Namen ich auf Wunsch komplett rausnehme.

2. Apr 2026, 11:21

Ich würde die Namen alle rausnehmen wenn möglich und ersetzen durch "Ein User" "User A" schreibt "User B" reagiert mit "User C" wendet ein.
Vielleicht ist das eine Option. Du generierst für jeden Artikel einfach fortlaufende Namen, die du selbst machst. Ich würde die Seite auch mal nach .dnl durchsuchen und schauen, was bei rauskommt.

Jan · 2. Apr 2026, 16:07

.dnl hat geschrieben: zum Beitrag navigieren2. Apr 2026, 11:21 Ich würde die Namen alle rausnehmen wenn möglich und ersetzen durch "Ein User" "User A" schreibt "User B" reagiert mit "User C" wendet ein.
Vielleicht ist das eine Option. Du generierst für jeden Artikel einfach fortlaufende Namen, die du selbst machst. Ich würde die Seite auch mal nach .dnl durchsuchen und schauen, was bei rauskommt.

Es braucht keine echten Benutzernamen, wollte nur sichergehen dass die KI keine Zitate erfindet. Ist aber am Ende auch nichts illegales... Ich darf das theoretisch zitieren. Wenn es jemand nicht will kurz melden. Sind ca. 12 user die unterschiedlich häufig vorkommen. Wobei ich nichts explizit gefiltert habe, die KI hat Netzo ausgewählt. Wieso weiss ich nicht.
Spitzenreiter ist übrigens der User NAC aus dem anderen Forum... Der wird um die 80x zitiert

Primate · 2. Apr 2026, 21:16

► Text anzeigen

Erpel, der Auserwählte

3. Apr 2026, 13:34

Erzähl mal bitte was zur technischen Umsetzung.
Das ist ein Standard Hugo + Nginx Setup oder?

Wie läuft die Generierung? Gesamtes Forum lokal gescraped und du wirfst ein Thema/Frage ins LLM und lässt die Texte generieren?

Und als Letztes:

Kein Schiss vor der Impressums Pflicht?

Du hast zwar keinen geschäftsmäßigen digitalen Dienst, aber vermutlich journalistisch und/oder redaktionelle Inhalte.

Jan · 3. Apr 2026, 13:49

S1L3 hat geschrieben: zum Beitrag navigieren3. Apr 2026, 13:34 Erzähl mal bitte was zur technischen Umsetzung.
Das ist ein Standard Hugo + Nginx Setup oder?

Wie läuft die Generierung? Gesamtes Forum lokal gescraped und du wirfst ein Thema/Frage ins LLM und lässt die Texte generieren?

Und als Letztes:

Kein Schiss vor der Impressums Pflicht?
Du hast zwar keinen geschäftsmäßigen digitalen Dienst, aber vermutlich journalistisch und/oder redaktionelle Inhalte.

Grundsätzlich ja, Hugo + Nginx als Basis. Statisches HTML, kein Backend nötig, lädt schnell.

Die Generierung ist aber kein simples "Forum scrapen → LLM drüberwerfen → fertig". Das wäre generischer Müll geworden und hätte genau das Zitat-Zuordnungsproblem das Carter T R angesprochen hat.

Der Prozess ist mehrstufig:

Forum-Daten extrahieren mit sauberer Trennung von eigenem Content und Zitaten (phpBB und WoltLab haben unterschiedliche Quote-Strukturen im HTML, die muss man getrennt parsen, sonst wird User A der Bullshit von User B zugeschrieben)
Wissen clustern: Nicht "ein Prompt rein, ein Artikel raus", sondern die Posts werden thematisch sortiert, Positionen identifiziert, Konsens-Meinungen von Einzelmeinungen getrennt. Bei kontroversen Themen (wie Intra Carbs) werden bewusst alle Seiten abgebildet.
Gegen externe Quellen abgleichen: Forum-Wissen wird mit aktuellen Studien (PubMed, Meta-Analysen) und Guru-Positionen (Israetel, Helms, Nippard etc.) verglichen. Was die Community sagt vs. was die Daten sagen.
Interaktive Tools sind custom JS, keine fertigen Widgets. Jedes Tool (Stack Builder, Entscheidungsbäume, Rechner) ist eigenständig gebaut, die Datengrundlage kommt aus den Forum-Diskussionen.
Produktbilder werden automatisiert von den Hersteller-Shops geholt (og:image Extraktion, Bing als Fallback) und per KI freigestellt (Background Removal).

Also ja, KI generiert die Texte. Aber die Intelligenz steckt weniger im Text-Output als in der Pipeline davor: welche Daten reinkommen, wie sie aufbereitet werden, und wie sichergestellt wird dass Zitate auch wirklich dem richtigen User gehören. Den Fehler bei Carter T R haben wir ja gesehen, das zeigt wie wichtig der Parsing-Schritt ist.

Gibt noch paar Dinge die ich nicht ganz zufrieden bin. Beispielsweise das Design, das ist mir zu "KI typisch"... Da arbeite ich noch an einem besseren Workflow.

In der Schweiz gibt es keine generelle Impressumspflicht wie in Deutschland

3. Apr 2026, 20:47

Not bad. Schönes Setup.

Jan hat geschrieben: zum Beitrag navigieren3. Apr 2026, 13:49 In der Schweiz gibt es keine generelle Impressumspflicht wie in Deutschland

Mirrin. Deswegen habe ich in Deutschland kein Bock auf ne eigene Seite. Erstmal schön mitm Klarnamen im Netz auftreten.

Jan · 7. Apr 2026, 15:55

Ich habe alle 65 Artikel jetzt systematisch fact-gecheckt und die gefundenen Fehler korrigiert. Weil einige direkt gefragt haben wie ich das mit KI mache ohne dass Bullshit durchrutscht, hier die ehrliche Version.

Warum KI überhaupt halluziniert

LLMs sind Wahrscheinlichkeits-Maschinen. Sie sind trainiert das nächstwahrscheinliche Wort vorherzusagen, nicht die Wahrheit zu sagen. Wenn ein Modell Tausende Studien-Zitate im Training gesehen hat, kann es eine Citation generieren die plausibel klingt: Autor existiert, Journal existiert, Jahr passt, Zahlen klingen realistisch. Aber die Kombination ist erfunden. Das ist kein Bug sondern das Wesen der Technologie.

Konkretes Beispiel aus meinem eigenen Training-Artikel: Ich hatte "Sunde et al. 2024" als Autor einer Deload-Studie drin. Die Studie existiert, im richtigen Journal (PeerJ), mit den richtigen Ergebnissen. Aber die Autoren heissen Coleman et al. So sieht Halluzination in freier Wildbahn aus: zu 90% korrekt und gerade deswegen gefährlich.

Stand der Technik

Drei grundsätzliche Ansätze gegen das Problem:

RAG (Retrieval-Augmented Generation): Modell bekommt echte Quellen als Input, darf nur daraus zitieren. Hilft, aber löst das Problem nicht, weil das Modell die Quellen trotzdem falsch interpretieren kann.
Fact-Checking-Pipelines: Zweites Modell prüft jede Behauptung post-hoc. Das ist mein Ansatz.
Verified-Entity-Listen: Vor dem Schreiben eine Datenbank echter Studien aufbauen, dann strikt daraus zitieren.

Was ich programmatisch mache

Zweistufiger Fact-Checker:

Stufe 1 ist ein Post-Generation-Hook. Sobald ich einen Artikel speichere, extrahiert ein Claude-Haiku-Call alle konkreten Behauptungen (Studien-Zitate, Jahreszahlen, Namen, Prozente, Dosierungen) und bewertet sie einzeln. Flag-System: OK, WARN, FAIL. Läuft automatisch in 5 bis 10 Sekunden pro Artikel.

Stufe 2 ist manuelle Web-Verifikation. Jedes FAIL und jedes WARN mit Studien-Claim gehe ich per PubMed-Suche durch und vergleiche gegen das Original-Paper. Wenn falsch: korrigieren. Wenn richtig: mit PubMed-Link inline verlinken.

Was ich gefunden habe

Von 65 Artikeln hatte ich 15+ echte Fehler drin:

Falsche Journal-Namen (Baz-Valle 2022 war im Journal of Human Kinetics, nicht im JSCR wie ich behauptet hatte)
Falsche Jahre (Antonio 3,4g/kg-Studie ist 2015, nicht 2016)
Falsche Autoren (Coleman statt Sunde bei der Deload-Studie)
Falsche Stichproben-Größen (Pilz-Vitamin-D-Studie hatte 54 Männer, nicht 165 wie im Artikel)
Falsche Interpretationen (Schoenfeld 2016 zur Frequenz sagt 2x > 1x, nicht "Frequenz egal")

Alle verifizierten Studien sind jetzt unter ironinsight.de/quellen gelistet, mit PubMed-Links und Kurz-Kontext.

Was das realistisch bedeutet

Ehrlich: KI-gestütztes Schreiben ohne Fact-Checking ist unverantwortlich. Mit Fact-Checking wird es machbar, aber nicht perfekt. Das System fängt Studien-Citations, Zahlen, Namen. Was es nicht fängt: subtile Interpretations-Fehler, stilistischen Schmuh, Forum-Zitate (da müsste ich in jeden Thread zurück), und Preise die veralten.

Und der Fact-Checker selbst ist auch ein LLM, also auch nicht perfekt. Bei meiner Durchsicht hatte er 7 FAIL-Verdikte, davon waren alle 7 falsch (Judge-Fehlurteile). Er hat behauptet "Trenbolon ist kein 19-Nor" (doch, ist eins), "Dorian Yates hat 1992 nicht gewonnen" (doch, sein erster Olympia-Titel), "das Muhammad-Ali-Zitat ist erfunden" (ist ein echtes, dokumentiertes Ali-Zitat).

Was ich gelernt habe: Die Verantwortung bleibt beim Autor. Die Werkzeuge machen gutes Schreiben möglich, nicht einfach. Wer KI benutzt und denkt das Tool macht seine Fehler nicht hat die Technologie nicht verstanden.

Feedback weiterhin willkommen. Besonders wenn ihr noch Fehler findet. Ich packe sie direkt in die Pipeline.

Jan · 8. Apr 2026, 07:44

Update: Perspektivwechsel

Das Experiment wird langsam interessant.

Nachdem der Fact-Check durch ist, habe ich mir nochmal die Artikel als Ganzes angeschaut. Und dabei ist mir was aufgefallen, das grundsätzlicher ist als falsche Jahreszahlen: In etlichen Artikeln steckten noch "Ich"-Perspektiven drin. "Ich empfehle...", "Meiner Erfahrung nach...", solche Sachen.

Das habe ich jetzt systematisch rausgenommen. Nicht weil es schlecht geschrieben war, sondern weil es den Kern des Projekts verfehlt. Es geht hier weder um meine Meinung noch um die der KI. Es geht um Daten.

Wenn 55 User in 116 Posts über Blutwerte unter Kur diskutieren, dann ist der Konsens dieser 55 User die Information. Nicht was ich dazu denke und nicht was ein Sprachmodell aus seinem Training zusammenreimt. Die Aufgabe ist: diesen Konsens sauber rausarbeiten, mit Fachliteratur abgleichen, Widersprüche benennen, und das Ganze so aufbereiten dass man es in 10 Minuten versteht statt drei Tage zu scrollen.

Das ist auch der Punkt warum das mit KI allein nicht funktionieren würde. ChatGPT hat keinen Zugang zu euren Threads. Wenn du ChatGPT fragst "was sagt die Community zu PCT", kriegst du ein generisches Ergebnis aus dem Trainingsmaterial. Was du nicht kriegst: was hier konkret diskutiert wurde, wo sich die Meinungen spalten, welche Erfahrungswerte immer wieder auftauchen.

Umgekehrt kann das aber auch kein Mensch leisten. Keiner liest 54.000 Posts neutral durch und fasst sie zusammen. Jeder liest selektiv, gewichtet nach eigenem Bias, vergisst die Hälfte.

Die Kombination macht's: Rohdaten automatisiert strukturieren, thematisch clustern, mit Studien abgleichen, dann als lesbaren Text aufbereiten, und am Ende nochmal manuell prüfen. So entstehen Artikel die auf echten Datenpunkten basieren, nicht auf Meinungen.

Stand jetzt: 67 Artikel, alle fact-gecheckt, alle ohne Ich-Perspektive. Quellen mit PubMed-Links unter ironinsight.de/quellen.

Neuester Post : https://ironinsight.de/artikel/steroide ... ubstanzen/

DerAllerBeste · 9. Apr 2026, 21:39

Jan hat geschrieben: zum Beitrag navigieren8. Apr 2026, 07:44 Das Experiment wird langsam interessant.

Bleib' da dran, dein Wissen wird bald mit Gold aufgewogen.

Der Schlüssel ist, wie allen Algorithmen, eine gesunde Datenbasis/-auswahl/-vorpräparierung&sortierung.

Jan · 9. Apr 2026, 22:09

DerAllerBeste hat geschrieben: zum Beitrag navigieren9. Apr 2026, 21:39
Jan hat geschrieben: zum Beitrag navigieren8. Apr 2026, 07:44 Das Experiment wird langsam interessant.
Bleib' da dran, dein Wissen wird bald mit Gold aufgewogen. Der Schlüssel ist, wie allen Algorithmen, eine gesunde Datenbasis/-auswahl/-vorpräparierung&sortierung.

Naja, mal sehen

– aber eines steht fest: Sich jetzt mit dem Thema KI auseinanderzusetzen ist eine der besten Investitionen, die man gerade machen kann.
Ein grosser Wandel steht bevor – und er kommt schneller, als die meisten denken. Die Welt, wie wir sie kennen, wird sich grundlegend verändern. Am ehesten lässt sich das mit dem Aufkommen des Internets vergleichen: Damals ahnten nur wenige, was da gerade entsteht – und plötzlich war nichts mehr wie zuvor.

10. Apr 2026, 09:53

Interessant. Wenn man durch dieses grundsätzliche technische Problem nur durch Postchecks zu akzeptablen bzw. weitgehend fehlerfreien Ergebnissen kommt, ist das aus meiner Sicht schon ein ziemlicher Flaschenhals.

Also generell, nicht auf dieses konkrete Projekt bezogen.

Leucko · 10. Apr 2026, 12:06

Wäre schon interessant was herauskommt wenn ein Log im gesamten analysiert wird.

Sind ja immerhin über 3 Jahre ausführliche Dokumentation.

Aber dafür müsste sie zunächst mal mehr als nur die erste und letzte Seite anschauen und zB die 30% Trollposts erkennen.

Jan · 10. Apr 2026, 12:33

Leucko hat geschrieben: zum Beitrag navigieren10. Apr 2026, 12:06 Wäre schon interessant was herauskommt wenn ein Log im gesamten analysiert wird.

Sind ja immerhin über 3 Jahre ausführliche Dokumentation.

Aber dafür müsste sie zunächst mal mehr als nur die erste und letzte Seite anschauen und zB die 30% Trollposts erkennen.

Challenge accepted...

Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut

Re: Aus 50.000+ Forum-Beiträgen eine Wissensseite gebaut