matheraum.de
Raum für Mathematik
Offene Informations- und Nachhilfegemeinschaft

Für Schüler, Studenten, Lehrer, Mathematik-Interessierte.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Forenbaum
^ Forenbaum
Status Hochschulmathe
  Status Uni-Analysis
    Status Reelle Analysis
    Status UKomplx
    Status Uni-Kompl. Analysis
    Status Differentialgl.
    Status Maß/Integrat-Theorie
    Status Funktionalanalysis
    Status Transformationen
    Status UAnaSon
  Status Uni-Lin. Algebra
    Status Abbildungen
    Status ULinAGS
    Status Matrizen
    Status Determinanten
    Status Eigenwerte
    Status Skalarprodukte
    Status Moduln/Vektorraum
    Status Sonstiges
  Status Algebra+Zahlentheo.
    Status Algebra
    Status Zahlentheorie
  Status Diskrete Mathematik
    Status Diskrete Optimierung
    Status Graphentheorie
    Status Operations Research
    Status Relationen
  Status Fachdidaktik
  Status Finanz+Versicherung
    Status Uni-Finanzmathematik
    Status Uni-Versicherungsmat
  Status Logik+Mengenlehre
    Status Logik
    Status Mengenlehre
  Status Numerik
    Status Lin. Gleich.-systeme
    Status Nichtlineare Gleich.
    Status Interpol.+Approx.
    Status Integr.+Differenz.
    Status Eigenwertprobleme
    Status DGL
  Status Uni-Stochastik
    Status Kombinatorik
    Status math. Statistik
    Status Statistik (Anwend.)
    Status stoch. Analysis
    Status stoch. Prozesse
    Status Wahrscheinlichkeitstheorie
  Status Topologie+Geometrie
  Status Uni-Sonstiges

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
StartseiteMatheForenStatistik/HypothesentestsSörensen Index
Foren für weitere Schulfächer findest Du auf www.vorhilfe.de z.B. Informatik • Physik • Technik • Biologie • Chemie
Forum "Statistik/Hypothesentests" - Sörensen Index
Sörensen Index < Statistik/Hypothesen < Stochastik < Oberstufe < Schule < Mathe < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Sörensen Index: Verwirrung
Status: (Frage) beantwortet Status 
Datum: 14:37 Sa 23.04.2016
Autor: magics

Aufgabe
Der Sörensen Index oder Sörensen-Dice-Koeffizient dient zur Ähnlichkeitsanalyse von Zeichenketten.

Dabei werden die Zeichenketten in Bigramme nebeneinanderliegender Buchstaben zerlegt. Aus "katze" erhält man also beispielsweise vier Bigramme: {ka, at, tz, ze}.

Die Formel ist definiert als:
s = [mm] \bruch{2*|A \cap B|}{|A| + |B|}, [/mm]

mit
|A [mm] \cap [/mm] B| Anzahl übereinstimmender Bigramme beider Worte
|A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.

Ein Beispiel:
Verglichen werden soll "katze" und "tatze".
Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.

Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm] \cap [/mm] B| = 3 wäre.
|A| und |B| sind jeweils 4.

Damit ergibt sich:

s = [mm] \bruch{2 * 3}{4 + 4} [/mm] = [mm] \bruch{3}{4} [/mm]



Was passiert, wenn sich Bigramme wiederholen?

Wenn ich also z.B. die Wörter "katztze" und "tatze" vergleichen wollte, ergäben sich die Bigrammgruppen:
{ka, at, tz, zt, tz, ze} und
{ta, at, tz, ze}

Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich es dann auch zwei Mal in der Schnittmenge |A [mm] \cap [/mm] B|? Oder dürfen doppelte Bigramme nicht doppelt in die Liste aufgenommen werden?

lg
Magics

        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 16:03 Sa 23.04.2016
Autor: DieAcht

Hallo magics!


> Der Sörensen Index oder Sörensen-Dice-Koeffizient dient
> zur Ähnlichkeitsanalyse von Zeichenketten.
>  
> Dabei werden die Zeichenketten in Bigramme
> nebeneinanderliegender Buchstaben zerlegt. Aus "katze"
> erhält man also beispielsweise vier Bigramme: {ka, at, tz,
> ze}.
>  
> Die Formel ist definiert als:
>  s = [mm]\bruch{2*|A \cap B|}{|A| + |B|},[/mm]
>  
> mit
>  |A [mm]\cap[/mm] B| Anzahl übereinstimmender Bigramme beider
> Worte
>  |A| bzw. |B| Anzahl Bigramme in Wort A bzw. B.
>  
> Ein Beispiel:
>  Verglichen werden soll "katze" und "tatze".
>  Aus "katze" bilden wir vier Bigramme: {ka, at, tz, ze}.
>  Aus "tatze" bilden wir vier Bigramme: {ta, at, tz, ze}.
>  
> Wir sehen, dass {at, tz, ze} übereinstimmen, womit |A [mm]\cap[/mm]
> B| = 3 wäre.
>  |A| und |B| sind jeweils 4.
>  
> Damit ergibt sich:
>  
> s = [mm]\bruch{2 * 3}{4 + 4}[/mm] = [mm]\bruch{3}{4}[/mm]

[ok]

> Was passiert, wenn sich Bigramme wiederholen?

Seien [mm] $A\$ [/mm] und [mm] $B\$ [/mm] endliche nicht leere Mengen mit [mm] $A=B\$. [/mm] Dann gilt [mm] $s=1\$. [/mm]
  

> Wenn ich also z.B. die Wörter "katztze" und "tatze"
> vergleichen wollte, ergäben sich die Bigrammgruppen:
>  {ka, at, tz, zt, tz, ze} und
>  {ta, at, tz, ze}

Es geht dir aber hier nicht um die Wiederholung von Bigrammen, sondern um die Wiederholung von Elementen in Bigrammen.
Also geht es dir um die Wiederholung von Elementen in Mengen. Beispielsweise gilt [mm] $\{a,b,a\}=\{a,b\}$. [/mm]

> Das Bigramm "tz" käme zwei mal im oberen vor, zähle ich
> es dann auch zwei Mal in der Schnittmenge |A [mm]\cap[/mm] B|? Oder
> dürfen doppelte Bigramme nicht doppelt in die Liste
> aufgenommen werden?

Es gilt

      [mm] $\{ka, at, tz, zt, tz, ze\}=\{ka, at, tz, zt, ze\}$. [/mm]


Gruß
DieAcht

Bezug
                
Bezug
Sörensen Index: Frage (beantwortet)
Status: (Frage) beantwortet Status 
Datum: 16:51 Sa 23.04.2016
Autor: magics

Hallo DieAcht,

erstmal vielen Dank für die Antwort.
Leider wirft sie eine weitere Frage auf:

Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b' bestehen.

1. Beispiel:
A = "ab" => {ab}
B = "ba" => {ba}
s = [mm] \bruch{2*0}{2} [/mm] = 0

2. Beispiel:
A = "aba" => {ab, ba}
B = "bab" => {ba, ab}
s = [mm] \bruch{2*2}{4} [/mm] = 1,
da ich in deiner Antwort interpretiere, dass die Reihenfolge der Bigramme keine Rolle spielen, was bei Mengen ja auch Sinn macht.

"aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles andere als gleich... dass hier 1 rauskommt, kann doch nicht richtig sein.

3. Beispiel
A = "aba" => {ab, ba}
B = "aba" => {ab, ba}
s = [mm] \bruch{2*2}{4} [/mm] = 1
Auch hier kommt 1 raus...?

Ich hätte vom Gefühl her die Bigramme der Zeichenketten nacheinander miteinander verglichen. Dann hat man aber Probleme, wenn eins der Wörter länger ist, als das andere...
Also so, dass beim 2. Beispiel gar keine Übereinstimmung zu finden ist, weil die Bigramme vertikal gelesen keine Übereinstimmung haben.

lg
Magics



Bezug
                        
Bezug
Sörensen Index: Antwort
Status: (Antwort) fertig Status 
Datum: 18:09 Sa 23.04.2016
Autor: DieAcht


> Nehmen wir Wörter die nur aus den Buchstaben 'a' und 'b'
> bestehen.
>  
> 1. Beispiel:
>  A = "ab" => {ab}

>  B = "ba" => {ba}

>  s = [mm]\bruch{2*0}{2}[/mm] = 0

[ok]

> 2. Beispiel:
>  A = "aba" => {ab, ba}

>  B = "bab" => {ba, ab}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1,

[ok]

> da ich in deiner Antwort interpretiere, dass die
> Reihenfolge der Bigramme keine Rolle spielen, was bei
> Mengen ja auch Sinn macht.
> "aba" und "bab" haben zwar Ähnlichkeiten, sind aber alles
> andere als gleich... dass hier 1 rauskommt, kann doch nicht
> richtig sein.

Nur die Reihenfolge der Elemente spielt keine Rolle.

Im Allgemeinen gilt [mm] $\{a,b\}=\{b,a\}$, [/mm] aber [mm] $\{ab\}\not=\{ba\}$. [/mm]

> 3. Beispiel
>  A = "aba" => {ab, ba}

>  B = "aba" => {ab, ba}

>  s = [mm]\bruch{2*2}{4}[/mm] = 1

[ok]

>  Auch hier kommt 1 raus...?

Es gilt immer [mm] $s\in[0,1]$. [/mm]

> Ich hätte vom Gefühl her die Bigramme der Zeichenketten
> nacheinander miteinander verglichen. Dann hat man aber
> Probleme, wenn eins der Wörter länger ist, als das
> andere...
> Also so, dass beim 2. Beispiel gar keine Übereinstimmung
> zu finden ist, weil die Bigramme vertikal gelesen keine
> Übereinstimmung haben.

Der Sörensen Index liefert eine Aussage über die Ähnlichkeit!

Bezug
                                
Bezug
Sörensen Index: Danke
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 13:53 So 24.04.2016
Autor: magics

Ok, besten Dank, DieAcht

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Statistik/Hypothesentests"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.unimatheforum.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]