Sprachenerkenner
Übersicht

![]() |
Lord StweccysBetreff: Sprachenerkenner |
![]() Antworten mit Zitat ![]() |
---|---|---|
Ich les grad ein Buch über Codes und da stand auch was drin über die Häufigkeit von Buchstaben kurzerhand habe ich daraus ein kleines Prog in BMax geschrieben, welches erkennt, welche Sprache hauptsächlich in einem Textdokument vorkommt, die man auf das Prog gezogen hat. Klartext: Textdatei auf Enlisch oder Deutsch schreiben, Computer sagt, welche Sprache. An sich nicht so besonders, mich hat nur fasziniert, dass das schlicht anhand der Buchstaben und nicht der Wörter geschieht:
Wer kein BMax besitzt , oder einfach zu faul ist, das hier zu kopieren, und Windows hat: Hier gibts auch einen Link für die kompilierte Anwendung dazu: https://www.blitzforum.de/upload/file.php?id=8357 BlitzMax: SuperStrict |
||
- Zuletzt bearbeitet von Lord Stweccys am Di, Apr 13, 2010 18:10, insgesamt 3-mal bearbeitet
![]() |
Progger93 |
![]() Antworten mit Zitat ![]() |
---|---|---|
funktioniert eher schlecht als recht....
Habe einen kurzen deutschen Forenbeitrag getestet -> Englisch Die Info über BlitzBasic von hier(deutsch) -> Deutsch Und die ersten paar Zeilen vom Wiki-Artikel über Thomas Jefferson (deutsch) -> Englisch Da kann man auf jeden Fall noch was verbessern. Mein Tipp wäre nach ganzen Wörtern wie "die","das","der","ein","eine","und","dass",... oder für Englisch "the","a","that","and",... zu suchen. Da wäre die Trefferchance deutlich höher. EDIT: Habs jetzt nochmal mit ein paar langen Texten probiert und festgestellt dass es nun funktioniert ![]() |
||
MfG Pascal
Win 7|T7250@2.0Ghz|3GB RAM|M8600GT |
- Zuletzt bearbeitet von Progger93 am Di, Apr 13, 2010 18:13, insgesamt einmal bearbeitet
![]() |
C-- |
![]() Antworten mit Zitat ![]() |
---|---|---|
Die idee finde ich gut, aber wie Progger93 schon sagte, ist die Trefferquote verbesserungswürdig.
Du könntest zum Beispiel auch noch eine Erkennung für Buchstaben einbauen (ä,ö,ü,ß, gibts ja im Englischen nicht). Problem wird aber immer sein, dass wir ins Deutsche ja auch englische begriffe übernommen haben und das verfälscht ein wenig das ergebnis. |
||
![]() |
XeresModerator |
![]() Antworten mit Zitat ![]() |
---|---|---|
Progger93:
Für kurze Texte kann diese Methode nie funktionieren, da man für eine statistische Analyse nun mal möglichst viele Daten benötigt. Und ganze Wörter zu vergleichen, ist eben nicht der Sinn des Programms. Theoretisch interessant. |
||
Win10 Prof.(x64)/Ubuntu 16.04|CPU 4x3Ghz (Intel i5-4590S)|RAM 8 GB|GeForce GTX 960
Wie man Fragen richtig stellt || "Es geht nicht" || Video-Tutorial: Sinus & Cosinus THERE IS NO FAIR. THERE IS NO JUSTICE. THERE IS JUST ME. (Death, Discworld) |
![]() |
Lord Stweccys |
![]() Antworten mit Zitat ![]() |
---|---|---|
Also meine Testtexte haben größtenteils funktioniert, manchmal gabs abweichungen, aber das war an der Obergrenze undich konnte durch eine Veränderung von langc erreichen, dass es richtig erkannt wurde.
Ja, okay, es ist nicht die perfekteste Methode, aber ich bin ganz zufrieden damit, weil diese Methode ganz schnell und simpel zu programmieren ist. ![]() PS: Mein Testtext bestand jeweils nur aus einem Satz. o-O |
||
![]() |
Lord Stweccys |
![]() Antworten mit Zitat ![]() |
---|---|---|
Oh, habe jetzt das Problem erkannt: In meinem Wahn, weil das mit einem Englischen Text nicht funktioniert hat, hab ich das limit für langc auf 16 angehoben. Es sollte sich aber im 13-15 Bereich bewegen.
[Link aktualisiert] |
||
![]() |
Midimaster |
![]() Antworten mit Zitat ![]() |
---|---|---|
mein vorschlag dazu wäre bestimmte 2er oder 3er-Buchstabenkombinationen zu checken, die fast nur in einer der Sprachen vorkommen. Da bleibt der Datenaufwand noch erträglich, aber die Trefferquote geht enorm hoch.
Um die Werte zu erhalten, könnte man ja viele bekannte Texte vergleichen und aber später nur signifikante Kombinationen in den Code übernehmen. Ich denke da an das deutsche "ck" oder englische "a " (das mit leerzeichen danach). |
||
Übersicht


Powered by phpBB © 2001 - 2006, phpBB Group