Bámulatos detektívmunkát végzett 4chan Think Tank és az internetes közönség, hogy megpróbálják felderíteni a bostoni maraton álmerénylet árulkodó jeleit. Ezen a képen két hivatalos katonai, vagy titkos rendőrségi öltözetű férfi látható fekete hátizsákkal. Öltözetük szinte mindenben megegyezik, és valahogy nagyon kilógnak a többi ember közül, akik a versenyt figyelik.
A képek között látható a valószínűleg a bombát tartalmazó és felrobbant hátizsák, ami nagyon hasonlít a két katonának kinéző férfi hátizsákjára, valamint egy harmadik férfiére, aki a karjára akasztva tartotta azt maga előtt.
Ezen a videón pedig egy szintén majdnem ugyanúgy öltözött férfi látható, mint a másik két katonának, vagy titkos rendőrnek kinéző ember egy nem éppen mobiltelefonnak látszó készülékkel a kezében.
Az egyik reklámokat jelenít meg neked a találati listája előtt. Kulcsszóra keresel, de már nem csak azt mutatja rekámként, hiszen már a keresőrész is szemantika alapján dolgozik. Nézi, hogy mi az érdeklődési köröd, hogy hol laksz, hogy az ismerőseid mit szeretnek, nézi a levelezésedet (gmail), nézi az okostelefonodon (de az IP címed alapján is), hogy éppen hol tartózkodsz, stb.
És ennek alapján ad neked reklámot, illetve találati listát. Pontosan tudja, hogy mi kell neked.
A fontosabb weboldalakat napi rendszerességgel feltérképezi az új információk után (általában ennél is gyakrabban), a kevésbé fontosakat kb. hetente párszor látogat meg. Gyakorlatikag a teljes Internet tartalmának olyan 98-99%-át lementette, és ezt a tartalmat szűri, értékeli - mindezt folymatosan. Ha egy közepesen látogatott oldalon megjelenik egy cikk (nem origo vagy index, hanem egy jóval kisebb oldal), az a cikk a találati listában akár percekkel később már bent lehet. Ennyi idő kell neki, hogy egy átlagos új tartalmat megtaláljon, elmentsen, értékeljen, és az adott keresőszavakra (vagy érdeklődés szerint) megjelenítsen a találati listájában.
Nekem volt egy új, egy akkor még nem is ismert weboldalam. Felkerült rá mintegy 25ezer aloldalnyi tartalom. Nagyjából egy órával később ért oda a Google első robotja, ami még a hagyományos robot volt (linkről linkre haladt, véletlenszerűen térképezett). Nem sokkal később megérkezett (talán az előző robot "hívására") egy "indexelő robot" (én így hívom azóta), ami már nem linkről-linkre haladt véletlenszerűen, hanem a weboldal szerkezetét ismerte fel. Tudta, hogy hogyan kell lapoznia a következő oldalra/lapra (tehát nem véletlenszerűen haladt a hivatkozásokon, hanem tudta, hogy melyikre kel kattintania, hogy átlapozzon, és ne olyat indexeljen, amit már látott), tudta, hogy mit hol talál, tudta, hogy milyen menüszerkezete van az oldalnak, áthaladt a javascriptes részek nagy részén is, illetve a flash tartalmak egy részét is felismerte. Nagyjából 2 órájába telt, míg végzett - a szerver statisztikájából tökéletesen lehetett követni a robotot. 2 óra alatt 25ezer aloldalnyi tartalmat indexelt. Egy órával később ez a tartalom már bent volt a Google.hu keresési listájában! Ennyi idő kellett neki 25ezer aloldalnyi friss tartalom feltérképezéséhez, a bennük lévő kifejezések, kulcsszavak és egyéb elemek rendezéséhez, majd annak a találati listában történő elhelyezéséhez. (A képeket kb. 5-6 órával később kezdte berakni a találati listába, ahhoz több idő kellett neki.)
Ez nem most történt, hanem már több éve volt! Azóta csak fejlődött. És ez csak egy új, nem is ismert, viszonylag kis weboldal volt. Ezt csinálja jóformán az Internet egészében, minden egyes pillanatban. Minden a neten megjelent információt akár percekkel később már elraktároz és elemez.
Itt már csak annyi kellene egy ilyen rendszernek, hogy az elemzés ne az alapján történjen, hogy ki mit keres a neten, vagy hogy milyen reklámot rakjon ki. Hanem mondjuk azt keresse, hogy kik a potenciális bűnelkövetők.
Szerinted mikor először megláttam (pár éve ennek is már), hogy elém direkt olyan reklámokat rak ki, ami a lakhelyemhez közeli, leültem-e a meglepetéstől? De le ám! Mivel a netem hivatalosan (és egyébként is) Pesten van hosztolva. Minden egyes IP lekérdező pestinek látja, esetleg szeghalminak vagy kecskemétinek, és valóban az IP cím ezekről van kiosztva. Egyedül a Google az mind a mai napig (egy-két kivételtől eltekintve - de az első ő volt), amelyik (a fentebb írt módon) pontosan tudja, hogy hol lakom, és annak megfelelő reklámot rak ki elém. Holott soha sehol nem adtam meg lakhelyemet egyetlen Google alkalmazásnak sem, és nem is voltam ilyenkor belépve. Ha hivatalosan nem is tudja, hogy egy IP cím melyik régióból van, attól még kiszűri. Elég neki az, ha a környékeden páran ugyanattól a szolgáltatótól bejelentkeznek abból az IP tartományból, és megadják a tartózkodási helyüket. Onnantól tudni fogja, hogy te is onnan netezel.
A Facebook detto ugyanez. Ismeri sz összes kapcsolatodat, ismerősödet, ismeretségi szinteket. Tudja, hogy mit lájkoltál, hogy milyen üzenetet küldtél, hogy mi az, amit szeretsz, és mi az, amit nem, mi az, amit megosztottál, és mit nem. Ismeri nem csak a te szokásaidat, hanem az ismerőseidét is, és abból értékel téged is. Több százmillió embert ismer. Így:
http://index.hu/tech/2013/03/12/a_lajk_a_lelek_tukre/
Ugye elég durva, hogy pusztán a lájkolási szokásaid alapján jó eséllyel kiszűri, hogy homokos vagy drogos vagy-e? Még akkor is, ha egyetlen homoszexuális/drogos oldalt sem látogattál, és egyetlen egy ilyen oldalt sem néztél meg rajta keresztül. Elég, ha pár filmet lájkolsz, meg néhány ismerősöd hozzászólását (aminek köze nincs a témához). Mégis meg lehet tudni rólad sok dolgot.
---
Mindössze számítási kapacitás kérdése, hogy meg tudjanak figyelni embereket, avagy hogy ki tudják szűrni a problémásakat. A számítási kapacitás pedig folyamatosan növekszik, gyorsabban, mint az újonnan létrejövő adatmennyiség. A modern algoritmusok sokkal komplexebbek már, mint amit annak idején (akár mondjuk 6-8 éve) alkalmaztak. Óriásit fejlődött az utóbbi pár évben az adatbázisok kezelése, a bennük történő keresés, szűrés, stb.
Ha van olyan számítási kapacitás, ami az Internet 99%-át feltérképezi, tárolja, rendszerezi és adott szabályok alapján megjeleníti (márpedig van); illetve van olyan, amelyik akár puszta lájkok alapján megmondja a személyiségi jellemzőidet 80-90%-os valószínűséggel (márpedig ilyen is van), akkor bizony nyugodtan lehet olyan is, amelyik a bűneseteket deríti fel.
Egy komolyabb szerverparkkal simán megoldható. Egy olyan országnak pedig, mint az USA, még könnyebb, mivel a titkosszolgálatoknak belelátásuk van a Google és a Facebook adataiba, bármikor lekérhetik azt, és biztos, hogy meg is teszik (hülyék lennének, ha nem tennék).
Lehet ugyan titkosan írni, de a mai algoritmusok nem csak a keresőszavak alapján nézik az adatokat, hanem millió és egy további tényező alapján. Olyan tényezőket is nézhetnek, amire te nem is gondolnál. Elhiheted, ezeket az algoritmusokat nem hülyegyerekek rakták össze, hanem a világ legjobb programozói. Ráadásul az ilyen rendszerek megtévesztését külön nehezíti, hogy nem ismered, hogy mit tudnak.
Bizony, képesek lehetnek rá. És ne egy gépet nézz, mert az semmi. Komplett szerverparkokat, cluster hálózatokat képzelj mögé. (Az Anonymus sem egy géppel támadott. Egyébként is ritka, hogy feltörnek ilyen rendszereket, bár nem lehetetlen. Az esetek többségében inkább túlterheléses támadásokról van szó, ahol zombigépek tízezreivel próbálják túlterhelni az adott weboldalt. Lásd: http://hu.wikipedia.org/wiki/DDoS )
Csak a számítási kapacitáson múlik, hogy mit tudnak rólad, és hogy mit tudnak kideríteni előre. Ez pedig csak a rendelkezésre álló számítógépek számától és teljesítményétől függ. Más nem kell már hozzá. Ez pedig adott.