Tema: Re: Žmonės, susitvarkykite encodingus!!!!
Autorius: RaR
Data: 2011-09-16 12:43:33
Teisingai, mano word 2007 irgi atpažino tik utf-8, kitas dvi - kaip 
kinišką ir japonišką koduotes. Aiškiai, mano prielaida dėl koduotės 
nuspėjimo analizuojant tekstą yra neteisinga.




2011.09.16 10:56, Laimis rašė:
> RaR rašė:
>> Beje, kiek suprantu, Microsoft produktai analizuoja tekstą ir patys
>> parenka koduotę. Čia remiuosi Word savybe paprastai pasiūlyti teisingą
>
> Nemanau, kad analizuoja. Tokia analizė yra labai netrivialus reikalas.
> Ne tiek resursų prasme, kiek netiksli ir tuo pasiremti yra vargiai
> tikslinga (nebent tavęs neerzina, kaip dažnai word'as nusprendžia už
> tave, ką tu nori padaryti su formatavimu, sąrašais, stiliais...).
> Atspėti koduotę iš teksto, kai kalbų yra tiek daug ir dar daugiau
> įvairių koduočių yra tikrai netrivialu.
>
>> skaitymo koduotę, jei neaišku kokia parašytas grynas tekstas. Negi tas
>> algoritmas toks sudėtingas ar kaip nors teisiškai negalimas, kad jo
>> negalima įdėti į atvirojo kodo produktus?
>
> Apie kokį tekstą, kokiuose failuose kalbama? Apie paprastus txt failus?
> Word'as nemoka (teisingai) parinkti koduotės, jei ji kaip nors
> nenurodyta...
> Prikabinu tris failus: failas1.txt — windows-1257, failas2.txt —
> iso-8859-4 (archajiška Baltic koduotė), failas3.txt — utf-8. Kaip
> elgiasi taviškis word'as? Maniškis (off2k3), tai grybauja siūlydamas
> kinietiškas/japoniška koduotes ir tik utf-8 failą parodo korektiškai,
> nes jis pradžioje turi utf-8 žymą (BOM — Byte Order Mark), pagal kurią
> galima parinkti koduotę. Jei ir taviškis word'as grybauja, tai ko
> tikiesi iš kitų (pašto) programų; juk šių failų atvejis yra visiškai
> tapatus laiškams su nenurodytomis koduotėmis...