Napravite vizionarska istraživanja u webu koristeći dubinske web podatke i Excelove web upite

  • Michael Fisher
  • 0
  • 1251
  • 205
Oglas

Što biste rekli kad bih vam rekao da imate na raspolaganju alat za istraživanje revolucionarnih i uništavanja Zemlje? Pa, znaš, i pokazat ću ti kako.

Vlade, akademske institucije i neprofitne istraživačke organizacije objavljuju tablice pune podataka u javnom vlasništvu. Bez da itko koristi ove podatke, njegova prava vrijednost nikada neće biti poznata. Nažalost, malo ljudi ima uvid, vještine ili alate za uzimanje podataka i uspostavljanje zanimljivih korelacija između naizgled nepovezanih informacija.

pozadina

Mnogo istraživanja koja radim na svom vlastitom blogu uključuje kopanje onoga što je poznato kao nevidljivi web. 12 najboljih pretraživača za istraživanje nevidljivog weba 12 najboljih pretraživača za istraživanje nevidljivog weba Google ili Bing ne mogu tražiti sve , Da biste istražili nevidljivi web, trebate koristiti ove posebne tražilice. , za otkrivanje podataka koji su objavljeni u javnosti, ali skriveni od tražilica. 5 najnaprednijih pretraživača na webu 5 najnaprednijih pretraživača na webu u internetskoj bazi podataka. Ovo je dubinski web-lokacija TorSearch koja želi biti Google za dubinsko web-mjesto TorSearch želi biti Google za Deep Web Tor je skrivena usluga i dio Deep Weba. TorSearch nova je anonimna tražilica koju njezin osnivač Chris MacNaughton želi napraviti “Google of Tor”. , i puna je vrijednih podataka. Vrlo često nailazim na web stranice koje su samo napunjene nekim od najcjenjenijih podataka o temama koje vode raspon od popisnih podataka do epidemioloških studija o rijetkim bolestima. Stalno imam nove ideje o tome kako isprobati i povezati te različite izvore podataka koristeći razne alate - a jedan od najcjenjenijih alata koji sam pronašao je Web Upit u programu Microsoft Excel.

Pronalaženje zanimljivih korelacija podataka

Ono što ću vam danas pokazati je primjer kako možete koristiti Excelove web upite za povlačenje podataka s različitih web mjesta i njihovo međusobno iscrtavanje kako biste pretražili moguće korelacije između podataka.

Način za započinjanje vježbe poput ove je izraditi zanimljivu hipotezu. Na primjer - da zadržim stvari ovdje - nasumično ću postulirati da su brzi skokovi autizma u Sjedinjenim Državama uzrokovani cijepljenjem cjepivom ili sve većom prisutnošću elektromagnetskih polja u i oko djece, poput mobitela. To je luda hipoteza kakvu ćete naći na većini web stranica teorije zavjere, ali to je ono što čini ovu zabavu. Pa započnimo, hoćemo li?

Najprije otvorite Excel, prijeđite na stavku izbornika podataka i pronađite “S Interneta” na vrpci izbornika.

Ovo ćete koristiti za uvoz različitih tablica podataka s mnogih web stranica koje su ih objavile.

Uvoz web podataka u Excel

Dakle, u davna vremena trebali biste pokušati kopirati podatke iz te tablice na web stranicu, zalijepiti ih u Excel, a zatim se baviti svim ludim problemima oblikovanja koji su uključeni u to. Totalna gnjavaža, i puno puta jednostavno ne vrijedi glavobolju. Pa, s Excel web upitima tih dana nema. Naravno, prije nego što možete uvesti podatke, morat ćete se Googleom kretati po webu kako biste pronašli potrebne podatke u obliku tablice. U mom slučaju pronašao sam web mjesto koja je objavila statistiku Odjela za obrazovanje o broju učenika američke javne škole za koje je identificirano da imaju autizam. Lijep stol u kojem su bili brojevi od 1994. sve do 2006. godine.

Dakle, samo kliknite na “S Interneta”, zalijepite URL web stranice u polje adrese upita, a zatim se pomaknite prema dolje dok ne vidite žutu strelicu pored tablice s podacima koje želite uvesti.

Kliknite strelicu tako da postane zelena kvačica.

Na kraju, recite Excelu u koje polje želite zalijepiti podatke tablice u novu proračunsku tablicu.

Zatim - Voila! Podaci se automatski prelijevaju izravno u vašu proračunsku tablicu.


Dakle, s trendom stope autizma u javnim školama od 1996. do 2006. godine je vrijeme da se krene u potragu za trendovima cijepljenja i upotrebe mobitela..

Srećom, brzo sam pronašao trendove za pretplatnike mobitela u SAD-u od 1985. do 2012. Izvrsni podaci za ovu posebnu studiju. Opet sam koristio alat Excel Web Query za uvoz te tablice.

Uvezao sam taj stol u čist, novi lim. Zatim sam otkrio trendove cijepljenja za postotak školske djece cijepljene protiv različitih bolesti. Uvezio sam tu tablicu pomoću alata Web Query u treći list. Na kraju, imao sam tri lista s tri tablice ispunjene naizgled nepovezanim podacima koje sam otkrio na Internetu.

Sljedeći korak je korištenje Excela za analizu podataka i pokušavanje identificiranja korelacija. Tu se pojavljuje jedan od mojih najdražih alata za analizu podataka - PivotTable.

Analiza podataka u Excelu s PivotTable-om

Najbolje je stvoriti svoj PivotTable na potpuno novom, praznom listu. Želite koristiti čarobnjaka za ono što ćete učiniti. Za omogućavanje PivotTable čarobnjaka u Excelu morate pritisnuti Alt-D istovremeno dok se ne pojavi prozor s obavijestima. Zatim pustite te gumbe i pritisnite “P” ključ. Zatim ćete vidjeti kako se čarobnjak pojavljuje.

U prvom prozoru čarobnjaka želite odabrati “Višestruki rasponi konsolidacije”, što vam omogućuje odabir podataka iz svih uvezenih listova. Radeći to, sve te naizgled nepovezane podatke možete objediniti u jedan moćan zaokretni podatak. U nekim će slučajevima možda trebati masirati neke podatke. Na primjer, morao sam popraviti “Godina” polje u tablici autizma tako da je pokazao “1994” umjesto “1994-1995” - što ga čini boljim za usklađivanje s tablicama na drugim listovima, koje su također imale polje za primarnu godinu.

To zajedničko polje između podataka je ono što vam je potrebno kako biste isprobali i povezali podatke, pa to imajte na umu kada lovite web za svojim podacima..

Nakon što je PivotTable završen i sve različite vrijednosti podataka prikazuju se u jednoj tablici, vrijeme je da napravite vizualnu analizu kako biste vidjeli postoji li očita veza koja iskače iz vas.

Vizualizacija podataka je ključna

Imati gomilu brojeva u tablici sjajno je ako ste ekonomist, ali to je najbrži i najlakši način za to “aha!” Trenutak kada pokušavate pronaći veze poput igle u plastu sijena, to je putem grafikona i grafikona. Jednom kada uspostavite svoj PivotChart sa svim skupima podataka koje ste prikupili, vrijeme je da napravite svoj grafikon. Obično se najbolji grafikon najbolje ponaša, ali to ovisi o podacima. Postoje slučajevi kada bar-grafikon djeluje puno bolje. Pokušajte shvatiti kakve podatke gledate i koja usporedba oblika najbolje funkcionira.

U ovom slučaju gledam na podatke tijekom vremena, tako da je linijski graf zaista najbolji način da se vide trendovi tijekom godina. Izračunavanje stope autizma (zeleno) na smanjene stope cijepljenja (tamnoplavo), cjepiva protiv kozice (svijetloplavo) i korištenje mobitela (ljubičasto), nenadna korelacija iznenada se pojavila u ovom uzorku skupa podataka s kojima sam se igrao.

Čudno da je trend korištenja mobitela od 1994. do 2006. gotovo savršeno odgovarao porastu stope autizma u istom razdoblju. Iako je obrazac bio potpuno neočekivan, savršen je primjer kako spajanje zanimljivih podataka može otkriti fascinantne poteze - pruža vam veći uvid i motivaciju za daljnje napredovanje i traženje dodatnih podataka koji mogu dodatno poboljšati vašu hipotezu.

Jedna takva korelacija ne dokazuje ništa. Postoji puno trendova koji se vremenom razvijaju - uzorak bi mogao biti slučajnost, ali to bi mogao biti i važan trag u vašoj trajnoj potrazi za više podataka na Internetu. Srećom, imate moćan alat koji se zove Excel Web Queries, koji će olakšati tu potragu.

Fotograf: Kevin Dooley putem fotop. Ccm




Još ne komentari

O modernoj tehnologiji, jednostavnoj i pristupačnoj.
Vaš vodič u svijetu moderne tehnologije. Naučite kako koristiti tehnologije i uređaje koji nas okružuju svaki dan i naučite kako otkriti zanimljivosti na Internetu.