Tema: Html failo parsinimas
Autorius: bertas
Data: 2010-06-18 23:48:08
Sveiki,
iškilo problema. Vienu žodžiu su curl pasiimu iš kito serverio 
sugeneruota failą. Ten tipo xls failas, nors iš tikro paprasta html 
lentelė. Jei jį išvedu į naršyklę - viskas gerai - rodomos lietuviškos 
raidės (windows-1257 koduotė). Toliau su dom parsinu, bet čia prasideda 
įdomybės - nebelieka lietuviškų raidžių. Nepavyksta nei į utf-8 
konvertuoti. Kur ieškot kabliukų? Ką darau ne taip. Blogiausia, kad ana 
svetainė daryta neaišku su kokia koduote (nėra net meta komandų). 
Parsinimas vykdomas šitaip:
$dom = new domDocument();
$dom->loadHTML($html_data);
$tables = $dom->getElementsByTagName('table');
$rows = $tables->item(0)->getElementsByTagName('tr');
foreach ($rows as $row) {
     $cols = $row->getElementsByTagName('td');
     $visi_mokiniai[]=array(
     'nr'=>$cols->item(0)->nodeValue,
     'asm_kodas'=>$cols->item(1)->nodeValue,
     'pavarde_vardas'=>$cols->item(2)->nodeValue,
     'lytis'=> $cols->item(3)->nodeValue,
     'gim_data'=> $cols->item(4)->nodeValue,
     'klase'=>$cols->item(7)->nodeValue);
}

Dėkui už mintis


D.