પગલું દ્વારા પગલું: એમ્પિરિકલ ક્યુમ્યુલેટિવ ડિસ્ટ્રિબ્યુશન ફંક્શન આર

જોસેફ શ્મુલલર દ્વારા

h 114 પિલ સ્ટ્રીટ વેલ્યુ

પ્રયોગમૂલક સંચય વિતરણ કાર્ય (ઇસીડીએફ) એ સંચિત આવર્તન સાથે નજીકથી સંબંધિત છે. અંતરાલમાં આવર્તન બતાવવાને બદલે, જો કે, ઇસીડીએફ તે સ્કોર્સનું પ્રમાણ બતાવે છે કે જે દરેક સ્કોર કરતા ઓછા અથવા સમાન હોય છે.



આધાર આરમાં, ઇસીડીએફ કાવતરું કરવું સરળ છે:



plot(ecdf(Cars93$Price), xlab = 'Price', ylab = 'Fn(Price)')

આ નીચેની આકૃતિ ઉત્પન્ન કરે છે.

આંકડા-આર-ઇસીડીએફ

Cars93 માં ભાવ ડેટા માટે પ્રયોગશીલ સંચિત વિતરણ કાર્ય.



અપરકેસ એફ વાય-અક્ષ પર સંચિત વિતરણ માટે એક સૂચક સંમેલન છે. આ | _ _ _ _ | અર્થ એ કે, અસરમાં, | _ _ + _ | ના વિરુદ્ધ સંચિત કાર્ય અથવા Fn, જેનો અર્થ માત્ર ફંક્શન છે. (વાય-અક્ષનું લેબલ પણ હોઈ શકે. f.)

કાવતરું નજીકથી જુઓ. જ્યારે સળંગ બિંદુઓ ખૂબ દૂર હોય છે (ઉપર જમણી બાજુના બેની જેમ), તમે એક આડી લીટીને એક બિંદુની બહાર જમણી તરફ લંબાવતા જોઈ શકો છો. (એક બિંદુ દરેક બિંદુથી વિસ્તરેલી હોય છે, પરંતુ જ્યારે પોઇન્ટ્સ બેન્ચ થાય છે ત્યારે લીટીઓ દેખાતી નથી.) આ લાઈનને એક પગલું તરીકે વિચારો અને પછીનો ડોટ પાછલા એક કરતા એક પગલું .ંચો છે. કેટલું ?ંચું? તે 1 / હશે એન , જ્યાં એન નમૂનામાં સ્કોર્સની સંખ્યા છે. fn | માટે, તે 1/93 હશે, જે .011 થી બહાર નીકળે છે.

આને પ્રયોગમૂલક સંચિત વિતરણ કાર્ય કેમ કહેવામાં આવે છે? કંઈક જે પ્રયોગમૂલક નમૂના ડેટા જેવા અવલોકનો પર આધારિત છે. શું બિન-પ્રયોગમૂલક સંચિત વિતરણ કાર્ય (સીડીએફ) હોવું શક્ય છે? હા - અને તે વસ્તીનો સીડીએફ છે જેનો નમુનો આવે છે. ઇસીડીએફનો એક મહત્વપૂર્ણ ઉપયોગ એ વસ્તી સીડીએફના અંદાજ માટેનાં સાધન તરીકે છે.



તેથી કાવતરું થયેલ ઇસીડીએફ એ વસ્તી માટે સીડીએફનો એક અંદાજ છે, અને અંદાજ નમૂનાના ડેટા પર આધારિત છે. એક અંદાજ બનાવવા માટે, તમે દરેક બિંદુ પર સંભાવના સોંપો અને પછી સંભાવનાઓ ઉમેરો, એક પછી એક, ન્યૂનતમ મૂલ્યથી મહત્તમ મૂલ્ય સુધી. આ દરેક બિંદુ માટે સંચિત સંભાવના ઉત્પન્ન કરે છે. નમૂના મૂલ્યને સોંપાયેલ સંભાવના એ વસ્તીમાં કેટલા વખત મૂલ્ય આવે છે તેના પ્રમાણનો અંદાજ છે. અંદાજ શું છે? તે ઉપરોક્ત 1 છે / એન દરેક બિંદુ માટે - .011, આ નમૂના માટે. કોઈપણ આપેલ મૂલ્ય માટે, તે વસ્તીમાં સચોટ પ્રમાણમાં હોઈ શકે નહીં. તે નમૂનાનો માત્ર શ્રેષ્ઠ અંદાજ છે.

તમે ઇસીડીએફને વિઝ્યુઅલાઈઝ કરવા માટે | _ _ + _ | નો ઉપયોગ કરવાનું પસંદ કરી શકો છો. કારણ કે તમે પ્લોટને વેક્ટર | _ _ _ _ | પર બેઝ કરો છો, તેથી ડેટા સ્રોત છે Percentile(Price):

સ્પિરોનોલેક્ટોનની આડઅસરો

Cars93

આ વિધેયના પગલા-દર-પગલાની પ્રકૃતિને ધ્યાનમાં રાખીને, પ્લોટમાં પગલાઓ શામેલ છે, અને | _ _ _ _ | કાર્ય છે ggplot() આંકડા જે પ્લોટ પરના દરેક પગલાને સૂચવે છે તે ઇસીડીએફ છે, તેથી તે છે

(Cars93$Price)

અને અક્ષોને લેબલ કરો:

NULL
કોડની તે ત્રણ લાઇનો સાથે રાખવી

ggplot(NULL, aes(x=Cars93$Price))

geom
geom_step
તમને આ આંકડો આપે છે:

આંકડા-આર-કિંમત-ડેટા

જી.જી.પ્લોટ () સાથે કાવતરું કરાયેલ કાર્સ 3 in માં ભાવ ડેટા માટેનું ઇસીડીએફ.

ગ્રાફમાં થોડો પિઝાઝ મૂકવા માટે, દરેક ચતુર્થાળ પર ડેશેડ વર્ટીકલ લાઇન ઉમેરો. વર્ટીકલ લાઇન માટે | _ _ + _ | ફંક્શન ઉમેરતા પહેલા, ચતુર્ માહિતીને વેક્ટરમાં મૂકો:

geom_step(stat='ecdf')

અને હવે

oxycodone acetaminophen 5 325 આડઅસરો

labs(x= 'Price X ,000',y = 'Fn(Price)')

vertભી લીટીઓ ઉમેરો. સૌંદર્યલક્ષી મેપિંગ દરેક લાઇનના એક્સ-ઇન્ટરસેપ્ટને ચતુર્થાંશ મૂલ્ય પર સેટ કરે છે.

તેથી કોડની આ લાઇનો

ggplot(NULL, aes(x=Cars93$Price)) +

geom_step(stat='ecdf') +

labs(x= 'Price X ,000',y = 'Fn(Price)')

geom
નીચેની આકૃતિમાં પરિણામ

આંકડા-આર-ડેશેડ

પ્રાઇસ ડેટા માટેનું ઇસીડીએફ, દરેક ચતુર્થાળ પર ડેશેડ વર્ટીકલ લાઇન સાથે.

એક્સ-અક્ષ પર ચતુર્ગીય-મૂલ્યો મૂકવાનો એક સરસ અંતિમ સ્પર્શ છે. કાર્ય price.q <-quantile(Cars93$Price)
| કે થાય છે. તે | _ _ _ _ | (જે અક્ષરો પર મૂકવા માટેના મૂલ્યોનું સ્થાન સુયોજિત કરે છે) અને અન્ય કહેવાતા લેબલ્સ (જે તે સ્થાનો પર મૂલ્યો મૂકે છે) નામની એક દલીલનો ઉપયોગ કરે છે. તે છે જ્યાં તે geom_vline(aes(xintercept=price.q),linetype = 'dashed')
વેક્ટર કામમાં આવે છે:

ggplot(NULL, aes(x=Cars93$Price)) +

અને અહીં આર કોડ છે જે નીચેની આકૃતિ બનાવે છે:

geom_step(stat='ecdf') +

ટાઇલેનોલ એસીટામિનોફેન જેવું જ છે

labs(x= 'Price X ,000',y = 'Fn(Price)') +
geom_vline(aes(xintercept=price.q),linetype = 'dashed')

scale_x_continuous()
breaks

આંકડા-આર-ચતુર્થાંશ

એક્સ-અક્ષ પરના ચતુર્ગીય મૂલ્યો સાથે, ભાવ ડેટા માટેનું ઇસીડીએફ.