Friday, October 21, 2016

Jaccard Gelykvormigheid Binary Options

Van Encyclopedia of Statistical Wetenskappe Ek verstaan ​​dat gegewe p digotome (binêre: 1present 0absent) skryf (veranderlikes), kan ons 'n gebeurlikheidstabel vir enige twee voorwerpe i en j van 'n monster te vorm: Ons kan bereken vanaf hierdie waardes ooreenkoms koëffisiënte tussen enige twee voorwerpe, spesifiek die Jaccard koëffisiënt frac en die Russell en Rao koëffisiënt frac frac. Wanneer bereken hierdie koëffisiënte sal verskillende waardes te gee, maar ek kan nie enige hulpbronne wat verduidelik vind waarom ek een oor die ander moet kies. Is dit net omdat dit vir 'n paar datastelle, die gelyktydige afwesigheid van beide eienskappe (d) nie die geval enige inligting oor te dra gevra 13 Junie 13 aan 21:24 Daar bestaan ​​baie sulke koëffisiënte (die meeste is hier uitgespreek). Net probeer om te mediteer oor wat is die gevolge van die verskille in formules, veral as jy 'n oorsig van koëffisiënte te bereken. Stel jou voor, byvoorbeeld, wat voorwerpe 1 en 2 soortgelyk, as voorwerpe 3 en 4 is. Maar 1 en 2 het baie van die eienskappe op die lys, terwyl 3 en 4 het slegs 'n paar eienskappe. In hierdie geval, sal Russell-Rao (deel van mede-eienskappe om die totale aantal eienskappe wat oorweeg word) hoog vir paar 1-2 en lae vir paar 3-4 wees. Maar Jaccard (deel van mede-eienskappe om die gekombineerde aantal eienskappe beide voorwerpe waarskynlikheid dat indien enige voorwerp het 'n kenmerk dan hulle albei dit) sal hoog wees vir beide pare 1-2 en 3-4. Hierdie aanpassing vir die basisvlak van versadiging deur eienskappe maak Jaccard so gewild en meer nuttig as Russell-Rao. bv in trosanalise of multidimensionele skalering. Jy kan, in 'n sin, verder te verfyn die bogenoemde aanpassing deur die kies van Kulczynski-2 maatreël wat die rekenkundige gemiddelde waarskynlikheid dat as een voorwerp het 'n kenmerk, die ander voorwerp het dit ook: (frac frac) / 2 Hier is die basis (of gebied) van spesifieke eienskappe om die twee voorwerpe is nie saamgevoeg, soos in Jaccard, maar is self vir elk van die twee voorwerpe. Gevolglik, indien die voorwerpe grootliks verskil oor die aantal eienskappe wat hulle het, en al sy eienskappe die armer voorwerp aandele met die ryker een, Kulczynski sal hoog wees terwyl Jaccard matige sal wees. Of jy kan verkies om geometriese gemiddelde waarskynlikheid dat as een voorwerp het 'n kenmerk, die ander voorwerp het dit ook, wat Ochiai maatstaf opbrengste bereken: sqrt frac Omdat produk swakker as som verhoog wanneer daar slegs een van die terme groei, sal Ochiai regtig hoog wees slegs indien beide van die twee proporsies (waarskynlikhede) is 'n hoë, wat impliseer dat soortgelyke deur Ochiai die voorwerpe moet die groot aandele van hul eienskappe te deel in ag geneem word. In kort, Ochiai randstene ooreenkoms as B en C is ongelyk. Ochiai is in werklikheid die cosinus ooreenkoms maatreël (en Russell-Rao is die puntproduk ooreenkoms). Is dit net omdat dit vir 'n paar datastelle, die gelyktydige afwesigheid van beide eienskappe (d) nie die geval dra enige inligting Praat van ooreenkoms maatreëls, een behoort nie meng nominale digotome eienskappe (bv vroulike, manlike) met binêre eienskappe (huidige vs afwesig). Binêre kenmerk isnt simmetriese (in die algemeen), - as jy en ek 'n kenmerkende deel, dit is die basis vir ons 'n beroep soortgelyke as jy en ek albei mis die kenmerkende, dit kan of kan nie beskou word as die bewys van ooreenkoms, na gelang van die konteks van die studie. Vandaar die uiteenlopende behandeling van d is moontlik. Let ook daarop dat as jy wil om ooreenkoms tussen voorwerpe op grond van nominale eienskappe (digotome of polytome) bereken, recode elke sodanige veranderlike in die stel van dummy binêre veranderlikes. Toe die aanbevole similariteitsmaat te bereken sal wees Dice (wat. Wanneer bereken vir skynveranderlikes, is gelykstaande aan Ochiai en Kulczynski-2). Die nut van die Tanimoto koëffisiënt oor die tradisionele akkuraatheid (dit wil sê Russell-Rao) is duidelik in beeld analise, wanneer vergelyk 'n segmentering om 'n goue-standaard. Oorweeg hierdie twee beelde: In elk van hierdie beelde wat binêre maskers is, het ons twee voorwerpe van dieselfde grootte, maar geplaas op effens verskillende plekke, en ons wil om te evalueer tot watter mate hierdie voorwerpe is identies in vorm en posisie deur die beoordeling van hul oorvleuel . Gewoonlik een (bv die pers masker) is 'n segmentering (vervaardig deur 'n rekenaar algoritme), bv dit kan 'n poging om die hart op te spoor van 'n mediese beeld wees. Die ander, (bv groen) is die goud-standaard (dit wil sê die hart, soos geïdentifiseer deur 'n deskundige klinikus). Waar daar 'n wit kleur, die twee vorms oorvleuel. Swart pixels is agtergrond. Die twee beelde identies (dws die uitslag van die segmentering algoritme, sowel as die goue standaard, is dieselfde in beide beelde), behalwe vir 'n baie agtergrond padding in die tweede beeld (bv hierdie twee eksperimente kon verteenwoordig met twee verskillende x-straalmasjiene, waar die 2de masjien het 'n wyer straal wat meer liggaamsdele, maar andersins die grootte van die hart is dieselfde in beide beeld stelle). Dit is duidelik dat, aangesien die segmentering en goudstandaard in beide beelde identies, as ons die segmentering akkuraatheid teen die goudstandaard te evalueer, wil ons graag ons metrieke om uitset dieselfde akkuraatheid gevolg in beide eksperimente. Maar, as ons probeer om die gehalte van die segmentering gebruik van die Russel-Rao benadering beoordeel het, sou ons 'n misleidend hoë akkuraatheid vir die regte beeld (naby aan 100) kry, want agtergrond pixels korrek geïdentifiseer as agtergrond pixels bydra tot die algehele akkuraatheid van die stelle en agtergrond pixels is buite verhouding verteenwoordig in die tweede stel. Die oogmerke waarvan die oorvleueling ons wil evalueer in mediese segmentering is dikwels klein spikkeltjies in 'n massiewe agtergrond, so dit is nie baie nuttig vir ons. Verder sou dit lei tot probleme as ons probeer om die akkuraatheid van 'n segmentering algoritme vergelyk met 'n ander, en die twee is geëvalueer op die foto van verskillende grootte (of, anders gestel, op verskillende skale). Die skaal / grootte van die inbedding beeld moet 'n verskil in die evaluering van 'n segmentering teen 'n goue-standaard nie. In teenstelling hiermee, het die tanimoto koëffisiënt nie omgee vir die agtergrond pixels, maak dit invariante volgens skaal. So sover die tanimoto koëffisiënt betref, sal die ooreenkoms tussen hierdie twee stelle identiese wees, maak dit 'n baie meer nuttig ooreenkoms metrieke vir ons om te gebruik om die gehalte van 'n segmentering algoritme te evalueer. antwoord 25 Julie by 0: 14Jaccard ooreenkoms Die Jaccard ooreenkoms (Jaccard 1902 Jaccard 1912) is 'n algemene indeks vir binêre veranderlikes. Dit word gedefinieer as die kwosiënt tussen die kruising en die unie van die paarsgewyse vergelyking veranderlikes onder twee voorwerpe. Vergelyking in die vergelyking d Jad is die Jaccard afstand tussen die voorwerpe i en j. Vir twee data rekords met N binêre veranderlikes y die veranderlike indeks k wissel van 0 tot N -1. Vier verskillende kombinasies tussen y i, k en y j, k kan onderskei wanneer vergelyk binêre veranderlikes. Hierdie kombinasies is (0/0), (0/1), (1/0) en (1/1). Die bedrae van hierdie kombinasies kan gegroepeer word volgens: Soos elke gepaar veranderlike behoort aan een van hierdie groepe dit kan maklik gesien word dat: As die Jaccard ooreenkoms is gebaseer op gesamentlike teenwoordigheid, is J 00 weggegooi. Die Jaccard andersheid word gedefinieer as d Jad 1- d Jak. In sommige gevalle is die Jaccard ooreenkoms word bereken as d JAS 2 d BCD / (1 d BCD). waar d BCD is die BrayCurtis andersheid. Hierdie vergelyking nie waardes verminder om binêre state. So, die resultate is anders as die gebruik van aan die een kant 'n teenwoordigheid / afwesigheid matriks en aan die ander kant 'n telling matriks. Die resultate is dieselfde as die telling matriks vooraf omgeskakel word na 'n binêre matriks. Sinonieme Die Jaccard ooreenkoms of Jaccard ooreenkoms koëffisiënt word dikwels genoem Jaccard indeks. In elk geval, die term Jaccard indeks word soms gebruik vir die Jaccard andersheid, terwyl die Jaccard andersheid soms Jaccard afstand genoem. Dit kan opgemerk word dat die terme Jaccard ooreenkoms en Jaccard andersheid is nie juis geskei en lyk soms synonymical om gebruik te word of verward, hoewel resultate teenoorgestelde betekenisse verteenwoordig. So, moet 'n mens versigtig inspekteer die bedoeling van die analise. Gebruik Die Jaccard ooreenkoms kan word, wanneer belangstel in binêre verskille tussen twee of meer voorwerpe. Veral in ekologiese navorsing ondersoeke dikwels fokus op die teenwoordigheid / afwesigheid tussen verskeie terreine. As jy belangstelling in wat kenmerkend is in vergelyking webwerwe deur die moontlikheid van spesies op te los daar verspreidings is dikwels gering. Algoritme Die algoritme beheer of die data insette matriks is vierkantige of nie. Indien nie die funksie gee terug vals en 'n gedefinieerde, maar leë uitset matriks. Wanneer die matriks is reghoekig die Jaccard ooreenkoms sal bereken word. Daarom is die dimensies van die onderskeie skikkings van die uitset matriks gestel, en die titels vir die rye en kolomme te stel. As die resultaat is 'n vierkantige matriks, wat weerspieël langs die diagonale net waardes vir een driehoekige gedeelte en die diagonale word bereken. Wanneer foute tydens berekening van die funksie gee terug ONWAAR is. Vir praktiese redes die implementering van die algoritme nie noodwendig waar binêre data nodig. Dit onderskei of 'n waarde is 0 of binne 'n sekere drumpel naby daaraan. In hierdie geval sal dit geïnterpreteer word as logiese ONWAAR is. bv afwesigheid. Waardes groter as die gegewe drumpel geïnterpreteer as logiese WAAR. bv teenwoordigheid. So, dit is moontlik sonder verdere voorbereiding vir 'n telling matriks slaag om die funksie. Soos die gegewe drumpel raak alle waardes ewe beteken dit nie sy metrieke eienskap te verander. Om die Jaccard andersheid die Jaccard ooreenkoms matriks eerste bereken en daarna omskep bereken. Bron voorbeeld vir 'n datamatriks aInputMatrix van die tipe t2dVariantArrayDouble. gevul is met: Ons weet dat Jaccard (bereken tussen enige twee kolomme van binêre data bf) is frac, terwyl Rogers-Tanimoto is frac, waar 'n - aantal rye waar beide kolomme is 1 b - aantal rye waar hierdie en nie die ander kolom is 1 c - aantal rye waar die ander en nie hierdie kolom is 1 d - aantal rye waar beide kolomme is 0 abcdn, die aantal rye in bf bf XXA is die vierkante simmetriese matriks van 'n tussen al die kolomme. BF (nie X) (nie X) D is die vierkante simmetriese matriks van d tussen al die kolomme (nie X is die omskakeling van 1-0 en 0-1 in X). So, frac is die vierkante simmetriese matriks van Jaccard tussen al die kolomme. frac frac is die vierkante simmetriese matriks van Rogers-Tanimoto tussen al die kolomme. Ek nagegaan numeries as hierdie formules gee korrekte resultaat. Hulle doen. Upd. Jy kan ook verkry matrikse bf B en BF C: bf B 1X-A, waar 1 dui matriks van kinders, grootte as bf X bf B is die vierkante asimmetriese matriks van b tussen al die kolomme sy element ij is die aantal rye in BF X met 0 in kOLOM I en 1 in kolom j. Gevolglik bf CB. Matrix bf D kan ook bereken word op hierdie manier, natuurlik: N bf - A-B-C. Wetende matrikse bf A, B, C, D, jy in staat is om 'n oorsig van 'n paarsgewyse (dis) ooreenkoms koëffisiënt uitgevind vir binêre data te bereken. Breuke maak geen sin vir matrikse, tensy hulle pendel: vermenigvuldig op die regte deur 'n omgekeerde sal anders 'n ander resultaat as vermenigvuldig aan die linkerkant gee. Verder is dit gewoonlik nie die geval dat 'n produk van twee simmetriese matrikse is simmetriese. Het jy dalk bedoel komponent-vir-komponent afdeling Kan jy los jou notasie om te besin wat jy van plan is die korrekte formule uitvoering maak whuber 9830 7 Februarie 13 by 07:19 whuber Ek don39t gebruik inversie of vermenigvuldiging van vierkante simmetriese matrikse. X is die binêre data matrix en X39X is sy SSCP matriks. nie X is X waar 1-gt0, 0-GT1. En enige afdeling hier is elementwise afdeling. Korrigeer my notasie as jy sien dit is nie gepas. â € ttnphns 7 Februarie 13 aan 07:29 Bogenoemde oplossing is nie baie goed as X is yl. Omdat neem X sal 'n digte matriks te maak, neem n groot hoeveelheid van geheue en berekening. 'N beter oplossing is om formule Jaccardi, j algemene / (i j - algemene) gebruik. Met yl matrikse kan jy dit doen soos volg (let op die kode werk ook vir nie-yl matrikse): Dit mag of mag nie nuttig wees vir julle, afhangende van wat jou behoeftes is. Die veronderstelling dat jy belangstel in ooreenkoms tussen die groepering opdragte: Die Jaccard Gelykvormigheid koëffisiënt of Jaccard indeks gebruik kan word om die ooreenkoms van twee groepering opdragte te bereken. Gegewe die benamings L1 en L2. Ben-Hur, Elisseeff, en Guyon (2002) het getoon dat die Jaccard indeks kan bereken word met behulp van dot-produkte van 'n intermediêre matriks. Die onderstaande kode maak gebruik van hierdie om die Jaccard indeks vinnig te bereken sonder om die intermediêre matrikse te stoor in die geheue. Die kode is geskryf in C, maar kan gelaai word in R met behulp van die opdrag sourceCpp. beantwoord 7 Oktober toe 15 05:47 Jou Antwoord 2016 stapel Exchange, IncSimilarity Statistieke Inleiding Data-ontginning is oor op soek na patrone in data. Ten einde patrone te vind, moet ons 'n metrieke om in staat wees om te sê dat hierdie data voorwerp is soos wat data voorwerp, of dat hierdie stuk van data is in teenstelling met 'n ander stuk data. Met ander woorde, moet ons 'n metrieke om ooreenkoms, of andersheid, of data voorwerpe te bepaal. Dit is die onderwerp van hierdie bladsy. Ek sal bespreek vyf ooreenkoms statistieke: Euklidiese afstand, Pearson korrelasie, die Jaccard ooreenkoms koëffisiënt, en die eenvoudige bypassende koëffisiënt. 'N ooreenkoms metrieke is 'n wiskundige algoritme wat 'n wiskundige mate van ooreenkoms terugkeer. Hierdie statistieke is 'n belangrike grondslag waarop die cluster algoritmes Ek sal in die volgende artikel bespreek word gebou. Euklidiese afstand Euklidiese afstand is die gewone afstand tussen twee voorwerpe. Dit is die afstand 'n mens sou kry deur die neem van 'n liniaal en meet die afstand tussen twee voorwerpe. In terme van data voorwerpe, aanvaar dat die voorwerpe is geplot in twee dimensionele ruimte op 'n grafiek. Euklidiese afstand sou die lengte van die lyn tussen die twee erwe te wees. Hierdie afstand is ontdek met behulp van die stelling van Pythagoras. Sedert die koördinate van elke punt op die grafiek is bekend, kan die X en Y afstand tussen die twee punte bepaal word, wat lei tot bekende waardes vir twee bene van 'n reghoekige driehoek. Die afstand tussen die twee datapunte is die skuinssy van die driehoek, en is ontdek deur die vind van die vierkantswortel van die som van die kwadrate van elke been. Die formule om die Euklidiese afstand tussen twee punte, P en Q, in Euklidiese N-dimensionele ruimte kan saaklik word verteenwoordig met die uitdrukking: Vir 'n praktiese voorbeeld, kyk onder die kode. Hierdie kode veronderstel twee mense met fliek resensies. Elke gebruiker gegradeerde die flieks wat hulle gesien het op 'n skaal van 1 tot 5. Die volgende kode eerste skep 'n skikking wat die resensies vir al die flieks wat hulle dit gesien, bevat, en dan gebruik Euklidiese afstand te bepaal hoe soortgelyke hul fliek voorkeure is. Berekening van 1 gedeel deur 1 plus die vierkantswortel van die som van verskille kwadraat veroorsaak dat die algoritme om 'n terugkeer 'n waarde tussen 1 en 0. n waarde van 1 dui op 'n volmaakte wedstryd, terwyl 0 dui nie opgewasse nie. Pearson korrelasie Pearson korrelasie is baie soortgelyk aan Euklidiese afstand. Stel jou voor die bogenoemde geval, waar die ooreenkoms van die film voorkeur wat bereken. As 'n gebruiker nooit het 'n gradering hoër as 'n 3, en 'n ander gebruiker nooit het 'n gradering hieronder 'n 3, dan neem hulle was 'n perfekte match op enige fliek hulle albei het 'n 3 sal ook 'n dwaling wees. In plaas daarvan, die gebruiker 'n geliefde wat fliek, terwyl gebruikers 2 dit gehaat. Euklidiese afstand kan nie verantwoordelik wees vir sulke inflasie en deflasie in graderings, maar Pearson korrelasie kan. Pearson korrelasie rekening hou met die verandering van waardes in elke stel wat die uitwerking van normalisering inflasie het. Dit kan bondig gedefinieer met die volgende uitdrukking: Die Pearson korrelasiekoëffisiënt tussen twee datapunte word gedefinieer as die kovariansie van die twee punte gedeel deur die produk van hul standaardafwykings. Weereens, die gebruik van die voorbeeld van datapunte word geplot op 'n twee dimensionele grafiek, kan Pearson korrelasie beskou word as die lyn van beste passing tussen die punte van 'n gegewe stel. Byvoorbeeld, dink aan die twee gebruikers in die fliek graderings byvoorbeeld albei het hul graderings geplot op 'n grafiek met flieks op die X-as en die telling op die Y-as. In plaas van die vergelyking van die werklike waardes vir elk van hul graderings, is die gebruikers in plaas vergelyking met waar die lyn van beste passing vir al hul graderings gaan deur 'n bepaalde film. Dit het tot gevolg dat normaliseer vir inflasie, en sal in staat wees om te erken dat ons 'n voorbeeld gebruikers, terwyl beide gee 'n 3 vir 'n spesifieke fliek, was in werklikheid nie 'n wedstryd nie. Gebruik dieselfde voorbeeld geval van fliek aanbevelings soos in die bostaande kode, sou die volgende algoritme 'n waarde terug tussen 1 en -1 aanduiding van die mate van ooreenkoms in die film voorkeur tussen twee gebruikers. A 1 verteenwoordig 'n sterk positiewe korrelasie of 'n goeie wedstryd, terwyl 'n -1 verteenwoordig 'n sterk negatiewe korrelasie, wat in hierdie geval 'n slegte wedstryd sou beteken. 'N Waarde van 0 dui geen korrelasie, wat in hierdie geval die gebruikers sou beteken het nie een van dieselfde flieks en kan dus nie vergelyk word vir die gelykvormigheid van voorkeur. Jaccard en SMC (Gewone Matching koëffisiënt) Die Jaccard ooreenkoms koëffisiënt en eenvoudige bypassende koëffisiënt word gebruik vir die meet van die ooreenkoms tussen stelle binêre data. In binêre data, waardes is óf teenwoordig van afwesig. 'N Goeie voorbeeld van binêre data is mark-mandjie data. Byvoorbeeld, as 'n vergelyking tussen die inhoud van twee kliënte shopping carts is jy wil, 'n rekord kan geskep word vir elke kliënt. Hierdie rekord sal kolomme bevat vir elke item in óf mandjie, en dan sal 'n 0 of 1 bevat in die ry vir die onderskeie kliënte as hy die stuk in sy kar gehad. Hierdie twee rekords kan dan vergelyk word met behulp van Jaccard of SMC om die ooreenkoms van hierdie kliënte inkopies gewoontes te bepaal. Dit kan wees bruikbare word wat daarop dui produkte aan kliënte, of om seker te maak gereeld saam gekoop items naby mekaar geplaas in die winkel. Jaccard is beter vir asimmetriese inligting, want dit ignoreer 00 wedstryde, gevalle waar die voorwerp verskyn in nie rekord. Byvoorbeeld, as nie een van die kliënte gekoop appels, appels sal geïgnoreer word by die berekening van die ooreenkoms tussen die kliënte shopping carts. Die vergelyking vir die Jaccard ooreenkoms koëffisiënt kan uitgedruk word as: Voort te gaan met die inkopie mandjie byvoorbeeld hier is 'n algoritme wat die Jaccard ooreenkoms koëffisiënt tussen twee kliënte sal bereken. Dit veronderstel twee byvoorbeeld veranderlikes wat skikkings met 'n 0 in elke kolom vir 'n item wat die kliënt nie te koop is, en 'n 1 vir items wat hy koop. Die eenvoudige bypassende coëfficent, aan die ander kant, doen sluit in 00 wedstryde. So, in die inkopie mandjie byvoorbeeld sou die eenvoudige bypassende koëffisiënt sluit die items nie kliënte gekoop. Die vergelyking vir die bepaling van die eenvoudige bypassende koëffisiënt kan uitgedruk word as: Hier is 'n algoritme wat die eenvoudige bypassende koëffisiënt sal bereken. Dit verg dieselfde instansie veranderlikes as die vorige Jaccard algorithm. Extended Jaccard Gelykvormigheid Die binêre Jaccard koëffisiënt meet die mate van oorvleueling tussen twee stelle en word bereken as die verhouding van die aantal gedeel eienskappe (woorde) van en die aantal wat besit word deur OR . Byvoorbeeld, gegewe twee stelle binêre aanwyser vektore en die kardinaliteit van hul sny is 1 en die kardinaliteit van hul vakbond is 3, die lewering van hul Jaccard koëffisiënt 1/3. Die binêre Jaccard koëffisiënt Dit word dikwels gebruik in die kleinhandel mark-mandjie aansoeke. In hoofstuk 3. verleng ons die binêre definisie van Jaccard koëffisiënt deurlopende of diskrete nie-negatiewe eienskappe. Die uitgebreide Jaccard word bereken as wat gelykstaande is aan die binêre weergawe wanneer die funksie vektor inskrywings is binêre. Uitgebreide Jaccard ooreenkoms SG00c behou die sparsity eiendom van die cosinus terwyl sodat diskriminasie van saamlynig vektore soos ons sal wys in die volgende subartikel te vervang. Nog 'n ooreenkoms mate hoogs verwant aan die uitgebreide Jaccard is die Dice koëffisiënt (). Die Dice koëffisiënt kan uit die uitgebreide Jaccard koëffisiënt word verkry deur beide die teller en die noemer. Dit is hier weggelaat omdat dit optree baie soortgelyk aan die uitgebreide Jaccard koëffisiënt.


No comments:

Post a Comment