You are here: PSPad forum > České diskuzní fórum > Stejná slova ve dvou souborech

Stejná slova ve dvou souborech

#1 Stejná slova ve dvou souborech

Posted by: VladaS | Date: 2013-04-01 12:13 | IP: IP Logged

Ahoj - potřeboval bych (ve windows XP) vyhledat všechna slova, která se vyskytují ve dvou souborech současně a to i když jsou úplně na různých místech textu - je to prosím nějak možné a popř. i něčím jiným, než PSPadem ???
Děkuju...

Options: Reply | Quote | Up ^


#2 Re: Stejná slova ve dvou souborech

Posted by: vbr | Date: 2013-04-01 12:42 | IP: IP Logged

VladaS:
Ahoj - potřeboval bych (ve windows XP) vyhledat všechna slova, která se vyskytují ve dvou souborech současně a to i když jsou úplně na různých místech textu - je to prosím nějak možné a popř. i něčím jiným, než PSPadem ???
Děkuju...

Zdravim,
postup v ramci PSPadu, ktery me napada, by zahrnoval vice kroku a hodi se spis pro jednorazove ne moc caste pouziti:

Lze vyuzit funkci Soubor: Informace o souboru,
kde je v zalozce Slova vypsan frekvencni seznam slov.

Cele seznamy pro oba vychozi texty se vykopiruji (Ctrl+C nad seznamem)
a vlozi do prazdneho okna editoru.
zrusi se vlozena zahlavi
"Slova Počet Četnost [%]"
a pokud hrozi kolize s hledanymi "slovy" u ciselnych udaju, zrusi se i tyto:
nahrazeni reg. vyrazu:
\t.*$
za prazdny retezec.

nasledne se nad novym souborem se seznamy slov opet vyvola
Soubor: Informace o souboru - Slova
klikne se na "Pocet" pro serazeni podle frekvence;
vyrazy z obou souboru budou mit frekvenci 2, ostatni 1.

Pouzita funkce v PSPadu nerozlisuje velikost pismen, pokud na ni zalezi (a neexistuje na to nejake me nezname nastaveni), nejde tenhle postup pouzit.

Alternativne by bylo mozne napsat na pozadovanou funkci pro PSPad skript; slozitost by zalezela na vice okolnostech a pozadavcich v konkretnich pripadech (napr. co ma byt "slovo", zda jde vzdy jen o dva vychozi soubory, nebo i vic, ma zalezet na velikosti pismen ... )

Zdravim,
vbr

Options: Reply | Quote | Up ^


#3 Re: Stejná slova ve dvou souborech

Posted by: pspad | Date: 2013-04-01 17:03 | IP: IP Logged

Jsi rychlejsi, napadlo me to same smiling smiley
Pokybuju, ze by nejaky nastroj umel porovnat primo slova z obecneho textu

Options: Reply | Quote | Up ^


#4 Re: Stejná slova ve dvou souborech

Posted by: MichalKarlik | Date: 2013-04-01 19:02 | IP: IP Logged

Dobry vecer,

zalezi na tom, v jake forme jsou texty k dispozici, jak jsou rozsahle a jak casto je potreba texty zpracovavat. Napadl mne nasledujici postup pro PsPad:

1. Pomoci regularniho vyrazu nahradit mezeru mezi slovy koncem radku v obou souborech.
2. Nahradit nektere znaky (tecka, carka, strednik, zavorky atd.) nicim v obou souborech.
3. Setridit slova podle abecedy (s odstranenim duplicit v souboru?) v obou souborech.
4. Pouzit funkci porovnani obou souboru.

Neco podobneho dela program Set Compare Ing. Stedronskeho (www.stedronsky.cz). Pripadne vetsinu vyse zmineneho dokaze sestava regularnich vyrazu a dalsich "cmd" skriptu.

Pozdravuje Michal Karlik

Options: Reply | Quote | Up ^


#5 Re: Stejná slova ve dvou souborech

Posted by: VladaS | Date: 2013-04-02 00:16 | IP: IP Logged

Děkuju moc, tak jsem zkoušel oba způsoby a trochu to koplikuje,
že vlastně v jednom souboru mám nějaké odkazy (každý na jednom řádku) a (zjednodušeně) takto:
xxx

a ve druhém souboru je seznam uživatelů, které potřebuju, aby se v tom 1. souboru NEVYSKYTOVALY, přičemž ale bohužel vždy není každý na jednom řádku, ale naštěstí jsou odděleni alespoň mezerami a v 1. souboru jsem musel také napřed zkusit nahradit všechny znaky = a & aby se tak dalo se soubory pracovat.

Napřed jsem zkusil ten "Set Compare" (že se mi to zdálo jednodušší), ale ten bohužel (i po tom nahrazení za mezery našel ta slova jenom pokud byla samostatně na jednom řádku, takže jsem napřed musel jesště zajistit, aby opravdu na každém řádku zůstalo jenom samotné uživatelské jméno...

Ten "zdánlivě složitější" postup v PSPadu funguje "skoro", protože je problém, že takto považuje za uživatele i různe "smetí" z toho souboru (třeba uživatele ve tvaru mailové adresy odstraní zavináč a považuje za 3 rúzná slova) a se "Set Compare" je to mnohem přesnější, jenom se napřed musí (samozřejmě)v souboru s odkazy odstranit vše před a i za jménem uživatele, tak škoda, že to nejde ještě i přímo, ale to už bych asi chtěl moc - každopádně je to ale (mnohem) rychlejší, než (ručně) brát 100 uživatelů jednoho po druhém a postupě hledat, takže ještě jednou moc děkuju, protože počítám, že víc zjednodušit (anebo vylepšit) už to (pravděpodobně) nepůjde a jsem tedy moc rád i za tohle...smiling smiley

Options: Reply | Quote | Up ^


#6 Re: Stejná slova ve dvou souborech

Posted by: vbr | Date: 2013-04-02 01:19 | IP: IP Logged

VladaS:
Děkuju moc, tak jsem zkoušel oba způsoby a trochu to koplikuje,
že vlastně v jednom souboru mám nějaké odkazy (každý na jednom řádku) a (zjednodušeně) takto:
xxx

a ve druhém souboru je seznam uživatelů, které potřebuju, aby se v tom 1. souboru NEVYSKYTOVALY, přičemž ale bohužel vždy není každý na jednom řádku, ale naštěstí jsou odděleni alespoň mezerami ...

Pokud jde nejak vybrat nebo extrahovat seznam "nezadoucich" uzivatelu z druheho souboru, melo by byt mozne je spojit do dlouheho vyhledavaciho retezce pro regulerni vyraz - spojeneho |
napr.
\b(uziv1|uziv2|uziv3|uziv4)\b

Tento vyraz pouzity v prvnim souboru by pak mel najit prislusna mista.
(Nevim, jestli ma PSPad pripadne nejaky limit na velikost zadaneho hledaciho vyrazu, kolem stovky jsmen by se tam ale melo vejit.)

zdravim,
vbr

Options: Reply | Quote | Up ^


#7 Re: Stejná slova ve dvou souborech

Posted by: MichalKarlik | Date: 2013-04-02 05:33 | IP: IP Logged

Dobre rano,

dival jsem se na Vas odkaz a bohuzel pro mne nefunguje. Cekal jsem, ze si stahnu priklady souboru a problemu lepe porozumim.
Mam nejakou mensi zkusenost se zpracovanim podobnych souboru radove desetitisice radku, kdy par regularnich vyrazu a dalsich cmd utilit na nekolik pruchodu za nekolik malo minut na podprumerne "sunce" udelalo potrebne.
Pokud mate zajem/muzete mi poslat vzorove soubory a nejaky, pro mne jasnejsi popis (asi mam intelektualni minimum), zkusim se na to podivat a pomoci. Neslibuji okamzite reseni, ale budu se snazit. Adresa je jmeno.prijmeni@spolana.cz.

Pozdravuje Michal Karlik

Options: Reply | Quote | Up ^






Editor PSPad - freeware editor, © 2001 - 2024 Jan Fiala, Hosted by Webhosting TOJEONO.CZ, design by WebDesign PAY & SOFT, code Petr Dvořák, Privacy policy and GDPR