Studiu magazine online de retail IT (2006)

Acest studiu il pregatesc de 1 luna, si am intarziat sa-l public din diferite motive, mai mult sau mai putin interesante pt Dvs: nu pot sa ma ocup de studiu decat in weekend, am intampinat dificultati de parsare a codului HTML la unele site-uri, am fost nevoit sa aplic patchuri si sa schimb radical codul crawlerului, am inceput prima oara pe Windows deoarece are o toleranta mai mare cu expresiile regulate (dpdv al alocarii memoriei), ei bine acest lucru nu a mai tinut de data aceasta, a trebuit sa configurez crawlerul pe un server Unix, s.a.m.d.
Studiul cu privire la magazinele online IT&C din Romania (.ro) cuprinde o baza de date de site-uri ce au fost "considerate" de catre crawler (VERASYS 2k) ca fiind valide pentru acest topic. Datorita faptului ca am dorit ca totul sa fie automat, si eu doar sa verific site-ul ca fiind unul valid sau nu (vezi: qualified, not qualified), crawlerul s-ar putea sa fi sarit cateva pagini. Acest lucru va fi completat in urmatoarele studii ce vor urma, si care vor fi mult mai complexe.
De asemenea alte deficiente ale crawlerului, ce se pot reflecta in datele studiului, sunt:
- nu recunoaste frame-urile HTML cum ar trebui, deci unele date de la site-urile ce folosesc <frame> sau <iframe> s-ar putea sa fie incorecte (aceste site-uri sunt putine ca numar).
- nr de pagini indexate de catre motoarele de cautare, sunt preluate de la un singur data center (pe viitor este posibil un addon pentru media paginilor indexate , insa acest lucru nu este relevant decat in perioadele de update ale motoarelor de cautare cand oscileaza foarte mult nr de pagini indexate)
- in cazul site-urilor cu mari greseli de cod HTML parsarea codului pentru extragerea rezultatelor se poate sa returneze informatii incorecte
- Va las pe Dvs. sa descoperiti alte eventuale erori in studiu.
In sectiunea de observatii in cadrul fiecarui site, am notat cateva impresii avute la momentul studiului (acestea s-ar putea sa nu mai corespunda cu realitatea pe masura trecerii timpului, deci va rog sa luati in calcul ca acest studiu a fost facut in perioada Septembrie - Octombrie 2006.).
La inceputul studiului am extras cateva date generale rezultate din statistica, pe parcurs voi adauga (la cererea Dvs.) si alte statistici. Studiul va fi mereu actualizat si va avea istoric.
NOTA: nu mi-am expus opiniile personale sau concluziile despre acest studiu deoarece consider ca exista utilizatori mai experimentati ce pot face acest lucru in locul meu iar opinia mea poate fi considerata subiectiva avand in vedere pozitia ocupata intr-o firma ce are ca latura comertul electronic
Actualizare: - sortarea nu tinea cont de parametrul qualified | not_qualified
Actualizare #2: - link-ul cu bufferul cu erori de cod HTML nu era functional