Tema: Re: Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: unce
Data: 2012-08-02 17:30:54
geriau nuripint newsus, bus šnekamoji kalba :)

"rembo" <rembo@dziungles.ku> wrote in message 
news:jvdbl0$pvi$1@trimpas.omnitel.net...
> nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų, 
> žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių 
> tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB 
> ir selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu 
> skaičiuoji pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį 
> nors galūnės skiriasi.
> Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
> Šiaip visai idomus uždavinukas gaunasi.
>
>
>
> "Vytook's" <DELETEvytautas59@inbox.lt> wrote in message 
> news:jvda99$oa5$1@trimpas.omnitel.net...
>> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
>> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
>> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo 
>> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus. 
>> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>>
>>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę 
>>> surūšiuota.
>>
>>>> atsisiusk:
>>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>>
>>>> ten bus viduje sąrašiukai :
>>>> lietuviu.ivairus
>>>> lietuviu.ivpk
>>>> lietuviu.jargon
>>>> lietuviu.vardai
>>>> lietuviu.veiksmazodziai
>>>> lietuviu.zodziai
>>
>>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>>
> 


3Dastronomyagricultureaudioautosautos.audiautos.audioautos.binariesautos.bmwautos.clubautos.fordautos.hondacrxautos.japanautos.mercedesautos.opelautos.sportautos.volvoautos.vwaviaavia.binariesbankcardsbinariesbooksbuildingcinemacommercecomp.hardwarecomp.softwarecomp.lietuvinimascomp.networksculturedarbas.ieskaudarbas.siulaudesigneconomicselectronicsfaunafauna.aquafauna.binariesfishingflorafotofoto.binariesgamesgames.csgames.onlinegsmgurmanaihumourhumour.binariesinternetlawmicrosoftmotomusicmusic.binariesmusic.instrumentsmusic.LT.binariesnavigacijaphppoliticsprogrammingrpgsportstudyingsveikatatalktesttranslationtransportationtraveltravel.binariestvunixvideovideo.binarieswatersportswwwwww.flashpdaautos.supermama.ltmobiledarbasretro.3Dretro.agricultureretro.astronomyretro.audioretro.autosretro.autos.audiretro.autos.audioretro.autos.binariesretro.autos.bmwretro.autos.clubretro.autos.fordretro.autos.hondacrxretro.autos.japanretro.autos.mercedesretro.autos.opelretro.autos.sportretro.autos.supermamaretro.autos.supermama.ltretro.autos.volvoretro.autos.vwretro.aviaretro.avia.binariesretro.bankcardsretro.beosretro.binariesretro.booksretro.buildingretro.cinemaretro.commerceretro.compretro.comp.hardwareretro.comp.lietuvinimasretro.comp.networksretro.comp.softwareretro.cultureretro.darbasretro.darbas.ieskauretro.darbas.siulauretro.designretro.economicsretro.electronicsretro.e-vejasretro.faunaretro.fauna.aquaretro.fauna.binariesretro.fishingretro.floraretro.fotoretro.foto.binariesretro.gamesretro.games.csretro.games.onlineretro.games.rpgretro.genealogijaretro.gsmretro.gurmanairetro.humourretro.humour.binariesretro.internetretro.YZFretro.YZF.nebukretro.YZF.nebuk.netikintisretro.YZF.nebuk.netikintis.bukretro.YZF.nebuk.netikintis.buk.tikintisretro.lawretro.microsoftretro.mobileretro.motoretro.musicretro.music.binariesretro.music.instrumentsretro.music.LTretro.music.LT.binariesretro.navigacijaretro.newsretro.news.taisyklesretro.newuserretro.pdaretro.phpretro.politicsretro.programmingretro.rpgretro.sportretro.studyingretro.sveikataretro.talkretro.translationretro.transportationretro.travelretro.travel.binariesretro.tvretro.unixretro.videoretro.video.binariesretro.watersportsretro.wwwretro.www.flashdiylt.rkm.news.announcelt.rkm.news.newuser