Język kaszubski – jedyny regionalny język w Polsce

    Pamiętam, że jak byłem mały to pojechaliśmy całą rodziną na Kaszuby, mieszkaliśmy tam we wsi Wdzydze i ponoć bywało, że tamtejsi mieszkańcy mówili językiem jakiego nie byliśmy w stanie zrozumieć. Ostatnio natomiast miałem okazję kilka razy przebywać na Pomorzu i stykałem się wielokrotnie z tablicami informacyjnymi po kaszubsku. W niektórych miejscowościach, np. na Helu można było zobaczyć nawet nazwy ulic w tym języku – nie zmieniało to jednak faktu, że niestety ani razu nie było mi dane usłyszeć go na żywo. A szkoda, bo od dłuższego czasu bardzo byłem ciekaw tego jak on brzmi, na ile różni się od polskiego. Jedyne co miałem to kieszonkowy „Słowniczek polsko-kaszubski” Romana Drzeżdżona i Grzegorza Schramke zawierający jedynie ok. 1000 słów, kupiony za 5 złotych w Gdyni  – bardzo fajna pamiątka, ale do nauki to raczej służyć nie mogło. Później znalazłem w internecie dwa kursy:

http://pl.wikibooks.org/wiki/Kaszubski/Podstawy – fajny podręcznik napisany przez rodowitych Kaszubów, którzy zajmują się też pisaniem kaszubskiej wersji Wikipedii, jaką znajdziecie pod tym adresem – http://csb.wikipedia.org/wiki/Prz%C3%A9dn%C3%B4_starna . Szczególnie podoba mi się fakt tego, że ten początkujący kurs jest oparty na prostych dialogach, a następnie objaśnieniach leksykalnych i gramatycznych nie odbiegających od standardów jakie panują w innych podręcznikach jakie uważam za dobre.

http://rastko.net/rastko-ka/content/view/238/1/ – to już jest oficjalny podręcznik do nauki języka kaszubskiego zatwierdzony przez Ministerstwo Oświaty dla klas szkół podstawowych V-VI. Dotychczas w internecie opublikowano 10 lekcji (z 20), jednak o ile zagadnienia gramatyczne wydają się być treściwe, to nie do końca jestem przekonany do funkcjonalności wierszy jakimi osoba korzystająca z tego podręcznika jest bombardowana. Tak czy inaczej, z powodu braku źródeł do nauki kaszubskiego jest to na pewno  pozycja godna uwagi.

Obydwa kursy mają niestety jeden ogromny minus – nie posiadają żadnego materiału audio. Żadnych kaset, CD, plików mp3, czegokolwiek na czym by się można było wzorować czytając teksty tam zamieszczone. Istnieją co prawda objaśnienia, które informują nas o tym jak czytać kaszubskie litery, ale to pomaga mniej więcej w takim stopniu jak podobne objaśnienia o języku angielskim. Trudno bowiem bez osłuchania się brzmieć choć trochę podobnie do native speakera.

Ostatnio wpadłem jednak zupełnie przypadkowo na blog http://kaszebsczi.wordpress.com, gdzie znalazłem link do opowiadania Aleksandra Majkowskiego „ŻËCÉ I PRZIGODÉ REMUSA”.  I nie byłoby w tym nic niezwykłego, gdyby nie fakt, że można na tej stronie przeczytać prawie 300 stronicowe dzieło w języku kaszubskim, a nawet ściągnąć w mp3 czytane fragmenty tego tekstu!!! Polecam. Jeśli natomiast nie chce Ci się tej strony odwiedzać to posłuchaj chociaż tego – http://literat.ug.edu.pl/remus/remus04.mp3. Usłyszenie języka tak niszowego jest przeżyciem jedynym w swoim rodzaju. Przy okazji możesz zobaczyć ile jesteś w stanie zrozumieć – ja osobiście za pierwszym razem gdy tego odsłuchałem, mogłem jedynie wychwycić pojedyncze słowa. I pomyśleć, iż niektórzy Polacy wciąż się upierają, że jest to jedynie dialekt języka polskiego…

Zapewne niewielu zacznie się uczyć kaszubskiego, jednak na pewno warto się zainteresować tym jedynym (przynajmniej oficjalnie) językiem regionalnym w naszym kraju, choćby ze względu na jego odmienność i oryginalność. Do ùzdrzeniô!

93 komentarze na temat “Język kaszubski – jedyny regionalny język w Polsce

  1. Dzięki za komentarz. Wiedziałem, że prędzej czy później ktoś zapyta o śląski właśnie w odniesieniu do kaszubskiego.

    Ze śląskim jest pewien problem. Z jednej strony obecnością w internecie przewyższa on język kaszubski (wnioski wysnute z moich pobieżnych obserwacji), mam też wrażenie, że Ślązacy trochę bardziej walczą o obecność swojego języka w mediach (mimo, że teoretycznie są w kiepskiej pozycji w porównaniu do Kaszubów) z drugiej natomiast rzadko kiedy jest śląski uznawany za odrębny język. Raczej umieszcza się go jako dialekt polskiego lub też przejściowy dialekt polsko-czeski posiadający większą liczbę zapożyczeń z niemieckiego (nie jestem specjalistą od polskich dialektów – jeśli ktoś jest, to proszę mnie poprawić).

    Ciekawie wygląda pisana wersja śląskiego, jednak podobnie jak w kaszubskim trudno o jakieś sensowne nagrania dialogów w tym języku (a niech będzie). Obiecuję zająć się śląskim, gdy znajdę więcej wolnego czasu i napisać jakiś dłuższy artykuł.

  2. Przypominam tylko, że jest to blog językowy, a nie polityczny (choć niestety jedno z drugim jest często związane). Moim zadaniem nie jest tu omawianie tego jacy Polacy są bardziej polscy. A komentarze na temat tego, że Ślązacy są niepolscy raczej Polakami ich nie uczynią (wręcz przeciwnie).

  3. Witam. Bardzo miło jest przeczytać pozytywny artykuł na temat języka kaszubskiego. I nie mieszajmy do tego polityki. Każdy ma prawo wybierać. Tym bardziej niech Kaszubi nie krytykują Ślązaków… Odmienności, różnice są czymś bardzo wartościowym w homogenizującej się kulturze:) Matiolk

  4. Kaszubski faktycznie brzmi ciekawie, a rozumiem tylko trochę.

    Śląski to dla mnie ewidentnie jest odrębny język z prostego powodu – jeśli spokojnie mogę sobie rozmawiać z ludźmi posługującymi się innymi językami, ale też słowiańskimi, a do śląskiego potrzebuję tłumacza, to ciężko by mi go było uznać za… dialekt polskiego 😉
    Prawda jest taka, że o wiele więcej podobieństw widzę w Białoruskim i Słowackim, a to ewidentnie są inne języki.

    Ps. Zobacz Karol do czego nas zmuszasz, do prowadzenia dyskusji pod notkami sprzed 2 lat. Napisałbyś coś nowego 🙂

  5. Zgadzam się z powyższą osobą. Blog interesujący i sama interesuję się językami obcymi, więc miło by było, gdyby znalazł się jakiś nowy wpisik 🙂

  6. Zgadzam się z powyższą osobą. Blog ciekawy, a sama interesuję się językami obcymi. Miło by było dodać jakiś wpisik. Chociaż raz w miesiącu 🙂

  7. Jestem bardzo zaskoczona, że kaszubski jest aż tak różny od polskiego. Trochę mi smutno, że sami mieszkańcy regionu tak słabo walczą o ocalenie tego języka. Tablice to nie wszystko, język powinien być żywy, mówiony. Powtórzę za Karolem – że też niektórzy Polacy wciąż się upierają, że jest to jedynie dialekt języka polskiego… Zresztą, precz z dyskusjami politycznymi, aspekt kulturowy jest nie tylko ciekawszy, ale i ważniejszy.

    Mam też pytanie do Autora – blog nie jest aktualizowany, bo przeniósł się na fanpage na FB? Co prawda zrezygnowałam z konta na fejsbuku, ale byłabym gotowa znowu założyć jakiś profil, bo blog jest super i nie chcę, żeby mnie omijał 🙂

    1. Blog na FB się nie przeniósł i na pewno będzie kontynuowany. Po prostu chwilowo nie miałem czasu na jego aktualizacje. Samemu językowi kaszubskiemu natomiast poświęcę kiedyś jeszcze więcej miejsca – najlepiej do współpracy w tym wypadku byłoby zaprosić jakiegoś Kaszuba z krwi i kości, więc jeśli tacy będą, to z wielką chęcią udostępnię im tu miejsce:)

      A co do nowych artykułów – na pewno niebawem się ukażą.

  8. Śląski językiem nie jest. Bardzo dużo zawiera elementów z polskiego przede wszystkim i in.

    Oczywiście mowa o śląskim polskim jeśli tak to nazwać można.

    1. Powstrzymywałbym się osobiście od takich jednostronnych deklaracji, że "śląski językiem nie jest". Bo na jakiej podstawie śląski językiem nie jest, a np. rusiński, słowacki czy chorwacki są? Kwestia tego co jest językiem, a co dialektem jest niesłychanie skomplikowana i zdaje się być świetnym tematem dla kolejnego artykułu na tym blogu, za co Ci dziękuję:)

    2. Pozwolę sobie na wyrażenie własnej opinii w tym temacie. Oczywiście że śląski jest innym językiem niż polski bo większość Polaków nie rozumie o czym mowa kiedy rozmawiam z nimi, a mój "śląski" jest bardzo spolszczony dzięki nękaniu nas przez nauczycieli w szkołach, nauczycieli których ściągnięto na te tereny w tym właśnie celu, aby wychwytywali każde słowo nie polskie którym się posługiwaliśmy na co dzień. Dzięki temu mówimy bardziej po polsku a do tego jeszcze doszły media i po latach oglądania telewizji "po polsku" mój śląski jest szczątkowy. Ale pamiętam jeszcze moją babcię jak mówiła po śląsku, oczywiście że jest to pomieszanie Polskiego z Niemieckim, może trochę Czeskim zwłaszcza przy granicy, są też słowa które powstały tutaj jak "ryczka". Trudno się dziwić skoro tereny Śląska były częścią Niemiec od 1795 do 1945 (150 lat!), jestem teraz w Anglii i mam kontakt z wieloma ludźmi z Polski, kolega bardziej mówiący po Śląsku, (bo ja staram się mówić a nie tylko "godać" żeby być zrozumianym), to po kontakcie z nim inne osoby w pracy mówią do mnie: -ty to nic, ale jak on coś powie to nic nie rozumiemy. Więc jak ktoś nie rozumie nic, to chyba to jednak jest inny język? Przynajmniej dla większości Ślązaków takim jest, niezależnie czy go rozumieją czy nie (bo są z Sosnowca np. i nie rozumieją ani słowa po śląsku, choć mieszkają 10 kilometrów od Katowic), ale też ich rozumiem bo tam był już zabór rosyjski i 123 lata rusyfikacji zrobiło swoje, więc mówią zupełnie inaczej od nas ślązaków, choć mieszkamy od siebie tak blisko i terytorialnie też Sosnowiec jest na Śląsku ale za Ślązaków się nie uważają. Mieliśmy nauczycielkę w Zabrzu która na nas mówiła Niemcy a o swoich córkach mówiła że one mieszkają w Sosnowcu "bo tam jak w Polsce"… Bez komentarza.
      I jeszcze jedno zdanie, nie mylić Śląskiego z "gwarą górniczą" bo to już jest osobny język, gdzie wulgaryzmy biorą górę nad pozostałą treścią wypowiedzi i nie ma to wiele wspólnego ze śląskim poza tym że jest równie niezrozumiała dla reszty Polaków co Śląski.

  9. Natrafiłem na ten blog przypadkiem. Właśnie odsłuchuję nagranie. W zasadzie nie jest to język trudny do zrozumienia – z pewnością łatwiejszy dla mnie niż np. ukraiński. Ale ubolewam, że nie ma dobrych materiałów do nauki kaszubskiego 🙁

  10. Z kaszubskim nie jest tak łatwo jeśli chodzi o określenie go jako języka czy dialektu polskiego. Przede wszystkim różni go wymowa i istniej w nim trochę różnic leksykalnych. Po obyciu się z nim można go rozumieć. Jednak za językiem przemawia to, że użytkownicy chcą go postrzegać jako osobny język.

    1. To co słyszę w tzw. audycjach kaszubskich nadawanych w radiu jest dla mnie w bardzo dużej części zrozumiałe, tym bardziej, że często odnoszę wrażenie, że osoby biorące w nich udział same mają pewne problemy z płynnym wysłowieniem się po kaszubsku. Przypominam sobie jednak, że jakieś 40 lat temu pracując z brygadą wiertniczą w terenie zdarzało mi się nocować w kaszubskich wsiach. I tak na przykład kilka wieczorów spędziłem w Sulminie (zaledwie kilka kilometrów za Gdańskiem), spożywając kolację z gospodarzami i ich dziećmi – jedynie co wówczas potrafiłem z prowadzonych rozmów wyłapać, to to były to takie słowa jak "kłeza", "łeda" "jo" czy kilka innych powszechnie znanych w regionie. Reszta tekstu była zupełnie niezrozumiała. Później wierciliśmy w Mrzezinie koło Pucka, tam nawet pracownicy pochodzący z okolic Kościerzyny i Kartuz, którzy kaszubski znali ze swoich rodzinnych domów mieli problemy ze zrozumieniem miejscowego dialektu.
      Z kolei znajomy Kaszuba (okolice Piaśnicy) twierdzi, że w czasie kilkudniowego pobytu w Słowenii, nie miał, dzięki znajomości kaszubskiego, większych problemów z porozumieniem się z mieszkańcami tego kraju

  11. Liczę na to, że uda mi się kiedyś nauczyć kaszubskiego. To bardzo piękny język, a skoro u mnie w centralnej Polsce takiego nie mamy, to nauczę się innego występującego w Polsce. A co! 😀

  12. Siadłam kiedyś (w Szczecinie, ale to inna bajka 😉 ) między Ślązakiem i Kaszubem. I siedzieli i jeden mówił po swojemu, a drugi to na polski starał się przetłumaczyć – im wychodziło, ja nie rozumiałam ani słowa poza tym polskim nieszczęsnym.

    Chociaż mam znajomą na studiach, która mi się żaliła, że strasznie musi się pilnować i uważać, żeby mówić po polsku a nie kaszubsku. Jakby to rzeczywiście był inny język.
    Granica między dialektem i językiem jest koszmarnie cienka i niewyraźna.

    1. Fragment kaszubskiego (remus04.mp3) bardziej mi się kojarzy z gwarą podhalańską niż ze śląskim – mieszkam gdzieś po środku obu regionów; rodziców mam z obu 🙂

      1. To pewnie z racji często występującej labializacji, która trochę łączy te regiony, choć jest ona realizowana trochę odmiennie, ponieważ w kaszubskim historyczne labializowane o (w ortografii ò) jest wymawiane jako „u̯e”, natomiast w gwarach góralskich usłyszymy je zasadniczo jako „u̯o”/„u̯ȯ” w nagłosie i „ᵘo”/„ᵘȯ”/„ȯ” wewnątrz słów, z tym że im dalej od miejsca akcentacji, tym bardziej zbliża się ta wymowa w stronę ostatniego z wymienionych, tj. „ȯ” (zwężonego o). W kaszubskim istnieje jeszcze labializowane u (ù), którego odpowiednik spotkamy w części wsi podlegających pod gwarę żywiecką, jednak znacznie rzadziej, bo głównie w nagłosowych u.
        Z tego, co ja wiem, kaszubski ma też – w zależności od regionu – dwa rodzaje akcentu: zmienny (występujący w jego standardowej wersji, pochodzący z Kaszub północnych) oraz inicjalny (identyczny co góralski, słyszany na Kaszubach południowych).
        Cech wspólnych możnaby się było doszukać więcej, ale to juz temat na bardziej ambitną pracę (np. dyplomową) 🙂

  13. Ja jestem z Kaszub 🙂 I to, że nie ma nagrań, ma też moim zdaniem trochę swoje podłoże. Kaszub z południa regionu i północy będą mieli problemy, żeby się zrozumieć. Północ (z której pochodzę) ma gwarę mocno odmienną od języka polskiego i dużo germanizmów, za to południe miesza polski i kaszubski, przez co dla mnie mówią dziwnie. Literacki kaszubski został oparty na odmianie północnej. By wyczuć różnicę, wystarczy posłuchać piosenek np. Weroniki Korthals, która pochodzi z Połczyna – ok. 10 km ode mnie i Damroki Kwidzińskiej, która jest z południa Kaszub (albo z Kaszub Środkowych, nie pamiętam, w każdym razie całkiem inaczej wymawia i czasem używa innych słów). A Ślązaka zrozumiem. Kiedyś na gry.wp.pl trafiłem na Ślązaków, zaczęli do mnie pisać w swojej gwarze, dumni, że ich nie zrozumiem, i się zdziwili, bo rozumiałem wszystko… A sam widzę w kaszubskim podobieństwa do niemieckiego (Plattdeutsch, ale Hochdeutsch też trochę), czeskiego i rosyjskiego 🙂
    W celu dalszej dywagacji – mój mail: nadoll1@wp.pl 🙂

    1. Ji jem z łekłeli Srakejc, z Królewści Kamińce, ji kłel nas sa ciesto jinaci gydy jak w nym literaccim nibe jozekły, Tyłe sa łucium trze płewite, karteści, wejrowści a labłerści, ji dly naji ta lteracku gydka to do nicie nie je płedobny, to doch je błyten siekły, a mie sa nóś w ciysieni łedmyky, nen co ji głe ni mum, jak ji cieja ta sprosnum gydka w Radji Kasiebe , trzemta sa belno a tłesto 😀

      1. Zrozumialem tylko (chyba) "ji jem z łekłeli"- jestem z okolicy, "ta literacku gydka to do nicie nie je płedobny"-ten język literacki nie jest do niczego podobny?, "a mie sa nóś w ciysieni łedmyky"-a mi się nóż w kieszeni otwiera?
        Mógłbyś przetłumaczyć resztę?

      2. @NightHunter
        Moje tłumaczenie na szybko. Słabe, bo nie mamy tu do czynienia z żadnym standardem, ale z silnym dialektem spisanym wg polskich zasad:

        Jestem z okolic Sierakowic, z Kamienicy Królewskiej i koło nas się często inaczej mówi niż w tym jakby literackim języku, którego się uczą trzy powiaty: kartuski, wejherowski i lęborski, a dla nas ten język literacki nie jest do niczego podobny, to jednak jest na zewnątrz siekły (pojęcia nie wiem co siekło może znaczyć), a mi się nóż w kieszeni otwiera, ten co go nie mam, jak słyszę tę sprośny język w Radiu Kaszebe.
        Trzymajcie się!

  14. Super, że temat tego języka został tu poruszony! 🙂
    Jestem "importowaną" Kaszubką. Mieszkam tam od roku i na początku naprawdę trudno mi było Kaszubów zrozumieć. Dziś już wiem, co do mnie mówią, ale ciągle wstydzę się odzywać 🙂
    Prawdziwy obcy język w Polsce!

    1. Dziękuję Ci Sonia za komentarz. Sam muszę przyznać, że zrozumienie kaszubskiego jest dużo trudniejsze niż aktywne władanie nim (choć nic w tym w sumie dziwnego – jest tak niemal z każdym językiem). Wydaje mi się, że przybysze z innych krańców Polski, którzy nauczyli się kaszubskiego są naprawdę wyjątkami.

      Pozdrawiam,
      Karol

  15. Aby móc orzekać czy dana "mowa" jest dialektem lub językiem należałoby podać definicję która pozwala na usytuowanie problemy w pewnych określonych ramach znaczeniowych.
    Otóż, mówienie że kaszubski to jezyk bo go nie rozumiem nie jest argumentem! Ja rozumiem białoruski i co z tego wynika? Że to nie język a dialekt? Większość z Polaków dość dobrze rozumie słowacki a ja za licho nie mogę niektórych dialektów czy gwar które nigdy nie pretendowały do rangi języka oddzielnego od polszczyzny.

    Jest na świecie wiele języków które są dla ich użytkowników wzajemnie zrozumiałe – bułgarski-macedoński, duński-norweski, galijski-portugalski, hindi-pasztu, dari-farsi, turecki – gagauzki, aby już o takich przykładach jak chorwacki i serbski nie wspominać.
    Są tez dialekty które są tak różne od języka za którego część są uznawane, które są całkowicie niezrozumiałe dla użytkownika jedynie języka standardowego – wiele włoskich dialektów, niemieckich, słoweńskich (sic!), itd itd.

    Problem języka to kwestia nowoczesnego narodu, tj, narodu który skupia się właśnie wokół języka, a nie jak kiedyś był wspólnotą którą wiązały kwestie aksjologiczne – np. naród belgijski (dwa jezyki, łączy religia) dziś kiedy religia w Belgii przestała być czymś istotnym, a w gre weszły kwestie nacjonalistyczne jedność Belgii jest zagrożona.

    1. Xpictianoc – generalnie zgadzam się z tym co napisałeś, a niedorzeczny argument jest konsekwencją tego, że sam artykuł pisany był już ponad 5 lat temu (czas leci).

      Mimo to jednak nadal stoję na stanowisku, że kaszubski jest osobnym językiem, również ze względu na cechy które odróżniają go na tle pozostałych języków słowiańskich. Nie mówię tu nawet o przytaczanej najcześciej w takich sytuacjach leksyce – ta bowiem jest mimo wszystko dość podobna do polskiej. Jednak pod względem fonetyki (gard vs gród, Kaszëbsczi vs Kaszubski) czy gramatyki (czas przyszły z konstrukcją "mieć" + "imiesłów") mówimy tutaj o zmianach bardzo istotnych. Zgadzam się z tym, że to nie wszystko co jest wymagane do tego by jakiś dialekt uznać za osobny język, ale niewątpliwie zmusza już do pewnych przemyśleń w tym temacie.

      Weźmy też pod uwagę, że od drugiej połowy XIX wieku mamy do czynienia z istnieniem grupy osób, które dość dobitnie utożsamiają się z językiem kaszubskim jednocześnie mocno podkreślając jego odrębność od polskiego nawet jeśli niektórzy z nich czują się Polakami.

      A polityka? Cóż, dla mnie zawsze będzie istniał język serbsko-chorwacki w różnych standardowych odmianach i nawet jeśli widzę różnicę pomiędzy standardem zagrzebskim i belgradzkim to nie uważam, bym tylko z powodów kwestii narodowych wmawiał sobie coś co jest fikcją.

      Przyjmijmy jednak, że to jest najważniejsze – rozumiem w takim razie, że według Ciebie istnieje język czarnogórski? (Naród de facto przecież jest, sam crnogorski ma natomiast status urzędowego).

  16. ja kiedyś nawet chciałem napisać tekst o językach dawnej Jugosławii ale to przerosło moje możliwości – czasowe jak i techniczne. Jak wspomniałem, współcześnie kwestie językowe nie rozstrzygają się na katedrach lingwistycznych ale na salonach politycznych. Nie wiem czemu miałbym uznawać istnienie j. serbskiego a nie czarnogórskiego. Standard sztokawski który został jako podwalina dla serbskiego to wschodniohercegowińskie dialekty i oczywiscie szumadyjskie, dlatego pod wieloma względami standard czarnogórski jest bliższy ideałom Karadzicia.
    W kulturze europejskiej potrzebny był epos, który staje się kamieniem węgielnym dla budowy stanrdadowego języka. Dla Serbów było to tłumaczenie Nowego Testamentu z XIX wieku, a dla Czarnogórców Gorski Vijenac Niegosza. Czarnogórski standard ma więcej lingwistyznych ciekawostek niż dla przykładu bośniacki, a dzis raczej nikt nie kwestionuje prawa Czarnogórców do definiowania się jako naród bo i ich historia pozwaliła na uniezależnienie sie od szeroko pojętej tożsamości serbskiej.

    Z całym szacunkiem dla kaszubskiego ale te różnice nawet nie sa w połowie tak duże jak np. między dialektem czakawskim, kajkawskim a sztokawskim w Chorwacji.

    Z kolei tworząc dialektalna mapę Polski widać że jeśli punktem odniesienia dla kaszubszczyzny nie będzie jezyk literacki a dialekty wielkopolskie czy kresowe, kaszubski traci wiele z cech rozróżniających od j. polskiego.

    Gdyby natomiast kultura ludowa Kaszub, ich tożsamość znacząco rożnica się od polskiej, wtedy należałoby uznać iż jako oddzielna grupa nawet nie etniczna ale narodowościowa, zasługuje na prawo nazywana swojego idiomu mianem języka.

    Znam wielu Kaszubów, ogromna część z nich nie mówi już wcale po kaszubsku, a ci co jeszcze mówią, używają terminu język kaszubski w znaczeniu jaki moja nieżyjąca już babcia mogłaby powiedzieć że ona mówi językiem podwarszawskim tj. lokalnym.

    Osobiście cieszę się z popularyzatorstwa rodzimych dialektów i gwar. Ubogaca to naszą kulturę i pozwala utrwalić lokalne ludowe tradycje.

    Tak zatem czy kaszubski to język czy dialekt nie zmienia faktu iż jego żytowność leży mi głeboko na sercu.

    pozdrawiam

  17. to jest nieco nudne, to że ktoś ma braki w edukacji nie jest moją winą.
    Niestety moja lingwistyczna biblioteczka jest 8tys. km miejsca w którym mieszkam, zatem mogę jedynie wspomagać się internetem.
    https://books.google.com/books?id=_lNjHgr3QioC&pg=PA40&lpg=PA40&dq=serbian+croatian+idiom&source=bl&ots=fDaErTrKaN&sig=sBNJhyLCI3zuDJHx-pKD-fvRTyU&hl=pl&sa=X&ved=0ahUKEwi1zOG89-7JAhUEUhQKHZMCDCEQ6AEIRjAG#v=onepage&q=serbian%20croatian%20idiom&f=false
    http://www.academia.edu/10060218/Condemned_to_Extinction_Molise_Slavic_100_Years_Ago_and_Now

    Termin etnolekt w stosunku do Kaszubów nie jest moim zdaniem odpowiedni z uwagi iż nie jest to sensu stricte grupa etniczna. Grupami etnicznymi w Polsce są choćby Romowie, Łemkowie czy Tatarzy. Etnolektem jest więc idiom używany przez Łemków czy Hucułów w stosunku do języka ukraińskiego lub rusińskiego.

    1. Dlaczego Kaszubi nie mieliby być grupą etniczną? Gdyby poza granicami Polski leżało państwo Kaszubia zamieszkałe przez czystych Kaszubów mówiacych tylko po kaszubsku to nikt nie miałby w Polsce wątpliwości, ze nasi Kaszubi są mniejszościa narodową, oddzielną grupą etniczną ,tyle ze dość mocno spolszczoną.
      Język kaszubski, choć mocno spolszczony, nie jest polskim dialektem, bo nie wywodzi się z polszczyzny, to chyba dość mocny argument w przeciwieństwie do przypadków innych etnolektów, dialektów i idiomów używanych w Polsce.

    2. @xpictianoc
      Krótko na temat użycia przez Ciebie terminu idiom:
      Absolutnie nikt nie kwestionuje znaczenia tego słowa w odniesieniu do terminologii angielsko-, francusko- czy chorwackojęzycznej. W polskim językoznawstwie jednak termin ten oznacza zupełnie co innego. Jeśli mimo tego kurczowo trzymasz się swojej tezy przedstaw proszę jakiekolwiek polskojęzyczne źródło na ten temat. To tylko taki mój wtręt – nie chce mi się jednak o samo użycie terminu sprzeczać. Grunt, że rozumiem co masz na myśli.

      Dlaczego Twoim zdaniem Kaszubi to nie jest grupa etniczna, a Łemkowie już tak? Czy różnica nie polega jedynie na tym, że jesteśmy zwyczajnie przesiąknięci przekonaniem, że Kaszubi jednak stanowią część naszego narodu, podczas gdy Łemkowie już niekoniecznie, w związku z czym tym pierwszym odmawiamy jakichkolwiek praw do bycia uznanymi za osobną grupę etniczną?

      1. a czy mieszkańcy Wielkopolski też są grupą etniczną albo Mazowsza? A Polacy mieszkający w Ukrainie to zaburzańska grupa etniczna?

        Z tego co wiem, choć zajmuję się problematyką narodowościową na terenach Bałkanów, ale Kaszubi nie definiują swojej tożsamości jako oddzielnego ethnosu. Są członkami szeroko pojętego narodu polskiego. Jego integralną częścią ze swoim folklorem i tradycjami tak jak to jest w przypadku innych regionów.

        Łemkowie z kolei nigdy nie byli utożsamiani ani siebie nie utożsamiali za część narodu polskiego, oraz co ważne powstałego bardzo póżno narodu ukraińskiego. Nie każda folklorystyczna różnorodność może być nazwana grupą etniczną

        Jak napisałem wcześniej, kwestie etniczno-narodowe są łatwo rozgrywane przez politykę. P

      2. Karolu, ja posługuję się terminem idiom dokładnie w takim samy sposób w jaki robiono to na wykładach katedrze językow zachodnio- i południowosłowiańskich Uniwersytetu Warszawskiego. Idiom jest terminem neutralnym, unikającym wartościowania i orzekania czy mowa jest o języku, dialekcie itd. Jest to termin szerszego użycia niż etnolekt i idiolekt. Dlatego wykorzystuje się go w przypadku tematów wrazliwych takich jak choćby sytuacja językowa na Bałkanach.
        Terminem tym posługuje się dr Jerzy Molas ze wspomnianej już katedry slawistyki zachodniej i południowej tu link: http://www.iszip.uw.edu.pl/index.php?option=com_content&view=article&id=230&Itemid=53
        jak również inni wykładający tam profesorowie.

        Można bez trudnu odnalezc w słownikach znaczenie o którym piszę,https://en.wiktionary.org/wiki/idiome

    3. Możesz wprowadzać własne definicje terminów takich jak 'idiom', 'idiolekt' czy 'etnolekt', ale takie postępowanie niemal gwarantuje, że dalszy ciąg dyskusji skupi się na samych terminach, zamiast na rzeczywistości do której się odnoszą. Czy naprawdę tak trudno zrozumieć, że Twoje użycie jest, łagodnie mówiąc, nietypowe i, jako takie, dziwi?

      ***
      Albo 'sensu stricto' albo 'stricte'. Chodzi ci o to, że oficjalnie jest to "społeczność używająca języka regionalnego" lub "społeczność posługująca się językiem kaszubskim" (fantastyczne sformułowania swoją drogą), a nie "mniejszość etniczna"?

      Z jednej strony mamy "ustawę o mniejszościach narodowych i etnicznych oraz o języku regionanym" (gdzie kaszubski to "język regionalny", a Kaszubi to "społeczność" ale nie mniejszość; Ślązaków/śląskiego, swoją drogą nie ma w ogóle), z drugiej rzeczywistość społeczną. W odpowiedziach na pytania spisu powszechnego o "narodowość", przynależność do "innego narodu lub wspólnoty etnicznej" oraz o "język używany w domu" najczęściej padającymi odpowiedziami innymi niż 'polski' są 'śląski' i 'kaszubski'.

      Można się upierać, że śląski i kaszubski nie są językami, a Ślązacy i Kaszubi nie są grupami etnicznymi (w rozumieniu ustawy nie są!), tyle że kilkaset tysięcy najbardziej zainteresowanych uważa inaczej. Oczywiście większość (w przypadku Kaszubów – przytłaczająca) deklaruje równolegle polską tożsamość, ale to w pełni normalne – kto powiedział, że nie można czuć się związanym z kilkoma wspólnotami jednocześnie?

      1. Polacy w Kazachstanie poługują się językiem rosyjskim czy stanowią mniejszość etniczną z uwagi na stosowany język?

        Możemy mnożyć absurdy, kwestia kaszubszczyzny jest nierozstrzygnięta, zgadzam się że to czy w ustawie będzie mowa o języku lub nie niczego nie rozstrzyga. Nie jest prawdą iż tylko uznając dany dialekt za język można pomóc w jego zachowaniu i pielęgnacji. Jak mawiał mój mentor, rzeczą dobrego wychowania jest potrafić mówić po polsku tak aby nikt nie mógł rozpoznać skąd jesteśmy, a w domu możemy w dowolnej gwarze, dialekcie itd.

        Problem Śląska polega na tym że to co za Śląsk jest uważane, jest jego malutkim fragmentem. Nie wątpię że są Ślązacy którzy mogą nawet nie czuć się Polakami, na siłę uszczęśliwiać przecież nie sposób. Tylko że jedno to polityczne rozgrywanie kwestii narodowościowych, a drugie to spojrzenie na problem z perspektywy akademickiej.

        Tereny Śląska to ziemie od wieków graniczne, a to jak wiemy sprzyja powstawaniu mieszanej tożsamości. Dodatkowo problem Śląska to jego podział i poprzez migracje ludności zatracenie jest pierwotnego charakteru.

        Inaczej wygląda sytuacja w Cieszynie a inaczej w Katowicach czy Bytomiu. Nie jestem ekspertem od kwestii śląskiej, ale dialekty śląskie za język nie uważam, a czy Ślązacy są grupą etniczną – również nie. Bo co łączy starych autochtonów spod Wrocławia i "prawdziwych" Ślązaków z Gliwic?

      2. Kwestie etniczno-narodowe nie tyle "są rozgrywane przez politykę" ile po prostu są polityczne. Obiektywne, "akademickie" kryteria oderwane od polityki po prostu nie istnieją. I z "językiem", i z "narodem" jest podobnie.

        ***
        Masz prawo do swoich poglądów i definicji. Możesz też "zadecydować", że np. Ślązacy nie są grupą etniczną, bo zbyt mało ich łączy, a te kilkaset tysięcy osób deklarujących narodowość śląską są ofiarami zbiorowego złudzenia. Ale po pierwsze, decydowanie za kogoś, kim on tak naprawdę jest, uważam równocześnie za śmieszne i mało praktyczne, a po drugie – każdy naród jest zbiorową iluzją, tylko niektóre mają dłuższą historię i mniej wyraźne początki. Wbrew (albo w uzupełnieniu) marksistom, świadomość kształtuje byt. Współcześni mieszkańcy Grecji mają nie tak wiele wspólnego (w sensie genetycznym) z Peryklesem, ale skoro uważają się za Greków, to nimi są.

        ***
        "Jak mawiał mój mentor, rzeczą dobrego wychowania jest potrafić mówić po polsku tak aby nikt nie mógł rozpoznać skąd jesteśmy".

        Według mnie opanowanie ogólnopolskiego standardu to kwestia *wykształcenia* (i wypadkowa odległości pomiędzy językiem używanym w domu, a tymże standardem – mi jest łatwiej, bo nie mam alternatywy; koledze ze Śląska, który w domu godo, nie mówi – trudniej), a nie wychowania. Jeśli przez roztargnienie zostawię na ladzie gazetę, którą kupiłem, zauważy to następny klient, wybiegnie za mną i odda mi ją ze słowami "zapomniałeś pan gazetkie", to mam go uważać za źle wychowanego, bo po wymowie słychać, że jest z Pragi czy Powiśla?

        Jeśli rozmówcę w pełni rozumiem, to co mi szkodzi, że wymawia samogłoski inaczej niż ja? Czemu mam się starać, by nikt nie rozpoznał skąd jestem? Co jest takiego złego w nacechowanym regionalnie języku? Czemu służyć ma ta mimikra? Wzmacnianiu poczucia wyższości tych samozwańczych dobrze wychowanych?

        Nastawienie, które opisujesz z aprobatą, rugowanie niestandardowego języka z przestrzeni publicznej, przekonanie że jeśli ktoś nie potrafi mówić po (ogólno-)polsku, to czegoś (dobrego wychowania) mu brakuje, to w istocie wyraz -częstego niestety- przekonania, że użytkownicy języków mniejszościowych są w pewnym sensie gorsi. I jeszcze to protekcjonalne "w domu możemy dowolnie". Pewnie, że możemy (i poza domem też), ale zezwolenia Twojego mentora na to nie trzeba.

      3. Pewna grupa Slazakow probuje zawladnac dla siebie ”slaskosc. Na Śląsku mieszka kilka milionów ludzi a mowimyno deklaracji około 100tys z nich a co więcej w Polsce można było podawać dwie przynależności narodowe.

        Ilość Ślązaków którzy czują się tylko li Slazakami a nie Polakami jest niewielka. Jeśli chcą mieć swoją narodowość, to bardzo proszę, tylko że mam prawo traktować to również poważnie co deklarację o istnieniu religii Jedi w Czechach.

        Posługiwanie się standardowym językiem jest jak używanie pewnego kodu kulturowego, to przestrzeganie swego rodzaju kodeksu. Nie mowie o sytuacjach z życia.codziennego ale o np o studiach, publicznych wystapieniach. Językiem urzędowym jest polski i nie chciałbym aby zalatwiajac sprawy formalne jakąś pani za okienkiem mi gwara tłumaczyła ważne dla mnie kwestie. A jak ona sobie rozmawia wmdomi, na ulicy to jej sprawa.

        Pamiętam że podczas studiów w Chorwacji bardzo się denerowalem jak nieraz zalatwiajac sprawy np w banku otrzymywalem odpowiedzi w czakawskim.

      4. Pomiędzy "posługiwać się językiem urzędowym", a "mówić tak, by nikt nie mógł odgadnąć skąd jesteśmy" jest duża różnica.

        Jestem jak najbardziej za powszechną znajomością skodyfikowanego standardu, bo bardzo ułatwia on komunikację, a w pewnych funkcjach -wymagających precyzji pojęć- jest niezastąpiony. Ale, powtórzę, to nie jest kwestia "wychowania" lecz "wykształcenia". Z kolei nacechowana regionalnie wymowa w niczym mi nie przeszkadza, nawet w sytuacjach oficjalnych. Przeciwnie, to piętnowanie jej uważam za bulwersujące.

        ***
        Śląsk. Masz nieaktualne dane. Już w 2002 narodowość śląską zadeklarowało 170 tys. osób (a w tamtym wpisie można było podać tylko jedną). W 2011 narodowość śląską zadeklarowało ogółem 846 tys osób, w tym ponad 375 tys. jako jedyną. Oczywiście to dalej tylko mniejszość mieszkańców Śląska, ale liczby ciekawe, a trend jeszcze ciekawszy (i, mnie przynajmniej, niepokojący).

        Dla mnie jest oczywiste, że trwa proces redefinicji śląskiej tożsamości, absolutnie nie jest oczywisty jego rezultat. Faktem jest jednak, że kilkaset tysięcy ludzi widzi śląskość jako niekompatybilną z polskością (a na Kaszubach jest zupełnie inaczej! – sądzę że status/brak statusu ma coś do tego). Uważam, że sprowadzanie tego do kategorii wygłupu i traktowanie tożsamości regionalnych jako najwyżej folkloru jest błędem – w niczym nie zagrażają one polskości (uzupełniają ją, wzbogacają), a traktując je z góry wywołujemy reakcję obronną polegającą na odcinaniu się od polskości.

        (oczywiście przyznawanie mniejszościom uprawnień, może -i tego obawiają się przeciwnicy uznawania 'nowych' mniejszości- zachęcać do stawiania coraz dalej idących roszczeń, cf. casus szkocki czy kataloński; moim zdaniem jednak w polskich warunkach to zagrożenie jest tak nikłe, że nie powinno być decydujące)

      5. Nie wiem, niektórym ten śląski tak przeszkadza, jakby od zaakceptowania go jako pełnoprawnego języka miałby przestać istnieć świat…
        A w okienkach prosta sprawa: daje się karteczkę z tym w jakich językach petent może z danym pracownikiem załatwić sprawy urzędowe – i po kłopocie.
        A jeśli ktoś zwraca się do nienative'a w dialekcie, to najczęściej znak, iż uznaje nasze opanowanie standardu literackiego za bardzo dobre – tak więc powinno się to traktować jako komplement!

    1. "Językiem urzędowym jest polski i nie chciałbym aby załatwiając sprawy formalne jakaś pani za okienkiem mi gwarą tłumaczyła ważne dla mnie kwestie."
      Bardzo ciekawy temat, często w różnych krajach miałem ten problem i nie wiem jak sie do tego ustosunkowac. Z jednej strony urzędnik powinien poslugiwać się językiem standardowym, z drugiej- tyle jest obszarów, gdzie język odbiega od normy a ludzi z zewnątrz bardzo mały procent, że parodią by było, gdyby "pani za okienkiem" musiała ciągle używać niemal obcego języka, żeby zadowolić zabłąkanego przybysza kilka razy w miesiącu. No i oczywiście- co to jest gwara? Czy używanie odmiennej fonetyki jest już gwarą- wtedy prawie nikt w danym regionie nie móglby być urzędnikiem, trzeba by bylo ich importować, bo wyzbyć się specyficznej wymowy jest bardzo trudno. A czy używanie regionalnych słów to gwara? Jeśli tak to jak częste i na ile muszą być niezrozumiałe? A jeśli są gwarowe lecz ogólnie zrozumiałe- co wtedy? Trudno byłoby wprowadzić jakieś jasne standardy, sprowadzanie urzędników ze stolicy też nie wchodzi w grę, a rzeczywiście chciałoby się słyszeć w urzędach język nienacechowany regionalnie.

  18. Język kaszubski zawsze brzmiał dla mnie dosyć egzotycznie, pomimo , że urodziłam się na Śląsku i styczność z gwarą, mniejszą bądź większą mam. Dobrze,że w dzisiejszych czasach istnieje wiele możliwości, które ułatwiają przyswajanie nowych języków. Rosyjski już znam , więc postanowiłam podjąć naukę języka ukraińskiego, przez skypa z native spekarem, bo tak teraz przecież najwygodniej [fragment komentarza ocenzurowano, ze względu na obecność perfidnej reklamy podprogowej]. Świetne rozwiązanie. Może by tak zacząć promować gwarę kaszubską czy śląska? Osobiście niestety mam za mała wiedzę, ale wierze, że tutaj znają się osoby kompetentne 😉

  19. @Karol

    No nieźle to rozkminiłeś, ale nadal nie wiem co to "błyten" i "cieja", Ty to tłumaczysz jako "na zewnątrz" i "słyszę". Dlaczego?

    1. "Błyten" to "na zewnątrz". Podobne słowo masz w afrikaans i niderlandzkim – "buiten",
      "Cieja" = czejã = czuję, czyli słyszę. Kaszubski nie jest jedynym językiem słowiańskim, w którym czasownik "czuć" oznacza słyszeć. Podobna sytuacja ma miejsce chociażby w serbsko-chorwackim. "Ci" = "cz", bo w kaszubskim wymowa jest miękka w odróżnieniu od polskiej.

      1. Afrikaans pomostem między polskim a kaszubskim-nieźle!!! "Czuć" to samo co "słyszeć" to oczywiste, ale wyprowadzić to z "cieja"…Musiałeś chyba mieć jakieś pojęcie o kaszubskim wcześniej? Praktyczne oczywiście.

      2. @NightHunter
        Co do búten – słowo to przyszło do kaszubskiego w zasadzie z dolnoniemieckiego buten. Podobnie jest ze słowem bënë oznaczającym "wewnątrz" (od binnen). Dialekty używane na Pomorzu do 1945 roku należały do grupy dialektów dolnoniemieckich, które znacznie różnią się od powszechnie znanego standardu niemieckiego.

        Moje doświadczenie z językiem kaszubskim jest natomiast raczej pobieżne i czysto pasywne – przeczytałem kilka książek i obejrzałem kilkanaście audycji. Gdy mowa o jednym z podstawowych czasowników więcej doświadczenia nie potrzeba by to wychwycić 😉

  20. zarówno polski , kaszubski jak i na przykład czeski to są dialekty jednego języka , nazywanie ich oddzielnymi językami służy głównie polityce dzielenia słowian .

  21. To jest coś i naturalnego i niezwykłego że: a) tyle języków powstaje na świecie, b) niektóre odnoszą wielki sukces a inne pozostają gwarami niszowymi.

    Kaszubski brzmi ładnie i ciekawie, i oczywiście – jest trudno zrozumiały.

    Kolejna sprawa – bardzo mnie interesuje czy Kaszubi utrzymują jakiś kontakt z Łużyczanani. Twe dwa archaiczne języki powinny być do siebie w jakiejś mierze podobne i wzajemnie się wspierać, póki są. Napiszcie mi, jeśli coś o tym wiecie, bo sam fakt istnienia lokalnych języków i gwar – nie kończy sprawy.

    A ostatnie – słyszę w kaszubskim dominację dźwięków typu -uo-, -ue-, a słuchałem ostatnio któregoś z celtyckich.. i zastanawiam się czy Kaszubi nie są potomkami jakichś Celtów, którzy gdzieś tam między I a VII w. n.e. nie zostali zepchnięci na północ a potem zeslawizowani, zachowując właściwe sobie formy wymowy

  22. Częstochowa, Małopolska Region:

    ʈ͡ʂɘ kɐʃu̞bɔ̝vʲɛ̝ ʒɘʈ͡ʂɔ̝̃ s̻ɔ̝̈bʲɛ̝ ∣ bɘ̟ pɔ̝ls̻kɔ̝jɛ̝̃zɘʈ͡ʂɲi pɔ̝lɐt͡sɘ u̞ʈ͡ʂɘli ɕɛ̝̃ ɛ̝t̪nɔ̝lɛ̝kt̪u̞ kɐʃu̞bs̻kʲɛ̝ɡɔ̝ ∣ ʈ͡ʂɘ t̪ɛ̝ʒ ɾɛ̝zɛ̝ɾvu̞jɔ̝̃ ɡɔ̝ ɾɐʈ͡ʂɛ̝̈j dlä ɕɛ̝bʲɛ̝ ∥ bɘ̟t͡ɕ mɔ̝ʒɛ̝ näu̞ʈ͡ʂɛ̝̃ ɕɛ̝̃ pɔ̝ds̻t̪ɐv kɐʃu̞bs̻kʲɛ̝ɡɔ̝ ∣ vɘ̟mɔ̝vɐ bʒmi pʲɛ̝̃kɲʲɛ̝ mu̞ʃɛ̝̃ pɔ̝vʲɛ̝d͡zʲɛ̝t͡ɕ ∣ xɔ̝t͡ɕ zɐs̻t̪änɐvʲäɱ ɕɛ̝̃ nä ilɛ̝ näu̞kä mä s̻ɛ̝̈ns̻ v s̻ɘt̪u̞ɐt͡sji ∣ v kt̪u̞ɾɛ̝j v vʲɛ̝̃kʃɛ̝̈j ʈ͡ʂɛ̝̃ɕt͡ɕi ɾɔ̝zu̞mʲɛ̝ɱ ɔ̝d̥ ɾäzu̞ ∥ t̪äk vʲɛ̝̃t͡s t̪ɔ̝ xɘ̟bä bäɾd͡zʲɛ̝j jäk näu̞kä dʲälɛ̝kt̪u̞ bɘ̟ bɘ̟wɔ̝ i bɘ̟t͡ɕ mɔ̝ʒɛ̝ mät̪ɛ̝ɾʲäwu̞v ɲʲɛ̝ pɔ̝ṯʃɛ̝̈bä vʲɛ̝lɛ̝ ∣ ɲʲɛ̝̈t͡sɔ̝̈ pʲɔ̝̈s̻ɛ̝̈nɛ̝k ɕɛ̝̃ pʂɘ̟dä i u̞ʒɘ̟t̪kɔ̝vɲiʈ͡ʂkä dɔ̝ kɔ̝nvɛ̝ɾs̻ɐt͡sji ∥ jɛ̝dnɔ̝̃ pʲɔ̝̈s̻ɛ̝̈ŋkɛ̝̃ vʒu̞t͡sɐɱ v liŋku̞ pɔ̝ɲiʒɛ̝j ∣ ɾɔ̝zu̞mʲɛ̝ɲʲɛ̝ pʂɘ̟näjmɲʲɛ̝j t̪u̞t̪äj ɲʲɛ̝ s̻pɾɐvʲä ɡwɛ̝̃bʃɘx ṯɾ̥u̞dnɔ̝ɕt͡ɕi i zäxɛ̝̃t͡sɐjɔ̝̃t͡sɔ̝̈ t̪ɔ̝ bʒmi

    Toruń, Wielkopolska Region:

    ʈ͡ʂ̞ɘ̟ kɐʂu̞bɔvʲɛ ʐɘ̟ʈ͡ʂ̞ɔɱ ɬɔbʲɛ ∣ bɘ̟ pɔlɬkɔjɛŋzɘ̟ʈ͡ʂ̞ɲi pɔlɐt̪͡s̪ɘ̟ u̞ʈ͡ʂ̞ɘ̟li çɛ ɛt̪nɔlɛkt̪u̞ kɐʂu̞bɬkʲɛɡɔ ∣ ʈ͡ʂ̞ɘ̟ t̪ɛʂ rɛzɛrvu̞jɔɱ ɡɔ rɐʈ͡ʂ̞ɛj dlɐ çɛbʲɛ ∥ bɘ̟c͡ç mɔʐɛ nɐu̞ʈ͡ʂ̞ɛ çɛ pɔdɬt̪ɐv kɐʂu̞bɬkʲɛɡɔ ∣ vɘ̟mɔvɐ bʐmi pʲɛŋkɲʲɛ mu̞ʂɛ pɔvʲɛd͡zʲɛc͡ç ∣ xɔc͡ç zɐɬt̪ɐnɐvʲɐɱ çɛ nɐ ilɛ nɐu̞kɐ mɐ ɬɛnɬ v ɬɘ̟t̪u̞ɐt̪͡s̪ji ∣ v kt̪u̞rɛj v vʲɛŋkʂɛj ʈ͡ʂ̞ɛŋçc͡çi rɔzu̞mʲɛɱ ɔt̪ rɐzu̞ ∥ t̪ɐk vʲɛŋt̪͡s̪ t̪ɔ xɘ̟bɐ bɐrd͡zʲɛj jɐk nɐu̞kɐ dʲɐlɛkt̪u̞ bɘ̟ bɘ̟wɔ i bɘ̟c͡ç mɔʐɛ mɐt̪ɛrʲɐwu̞ɸ ɲʲɛ pɔt̪ʂɛbɐ vʲɛlɛ ∣ ɲʲɛt̪͡s̪ɔ pʲɔɬɛnɛk çɛ pʂɘ̟dɐ i u̞ʐɘ̟t̪kɔvɲiʈ͡ʂ̞kɐ dɔ kɔnvɛrɬɐt̪͡s̪ji ∥ jɛdnɔɱ pʲɔɬɛŋkɛ vʐu̞t̪͡s̪ɐɱ v liŋku̞ pɔɲiʐɛj ∣ rɔzu̞mʲɛɲʲɛ pʂɘ̟nɐjmɲʲɛj t̪u̞t̪ɐj ɲʲɛ ɬprɐvʲɐ ɡwɛɱbʂɘ̟x t̪ru̞dnɔçc͡çi i zɐxɛŋt̪͡s̪ɐjɔŋt̪͡s̪ɔ t̪ɔ bʐmi

    Warszawa, Mazowsze Region:

    ʈ͡ʂ̞ɘ kæ̞ʂʊbɒvʲɶ ʐɘʈ͡ʂ̞ɒw̥ ɬɒbʲɶ ∣ bɘ pɒɫɬkɒjɶw̥zɘʈ͡ʂ̞ɲɪ pɒɫæ̞t̪͡s̪ɘ ʊʈ͡ʂ̞ɘɫɪ çɶ ɶt̪n̪ɒɫɶkt̪ʊ kæ̞ʂʊbɬkʲɶɡɒ ∣ ʈ͡ʂ̞ɘ t̪ɶʂ ɾɶzɶɾvʊjɒw̥ ɡɒ ɾæ̞ʈ͡ʂ̞ɶj dɫæ̞ çɶbʲɶ ∥ bɘc͡ç mɒʐɶ n̪æ̞ʊʈ͡ʂ̞ɶ çɶ pɒdɬt̪æ̞v kæ̞ʂʊbɬkʲɶɡɒ ∣ vɘmɒvæ̞ bʐmɪ pɪɶɲkɲʲɶ mʊʂɶ pɒvʲɶd͡zʲɶc͡ç ∣ xɒc͡ç zæ̞ɬt̪æ̞n̪æ̞vʲæ̞ɱ çɶ n̪æ̞ ɪɫɶ n̪æ̞ʊkæ̞ mæ̞ ɬɶn̪ɬ v ɬɘt̪ʊæ̞t̪͡s̪jɪ ∣ v kt̪ʊɾɶj v vɪɶɲkʂɶj ʈ͡ʂ̞ɶŋçc͡çɪ ɾɒzʊmʲɶɱ ɒd̥ ɾæ̞zʊ ∥ t̪æ̞k vɪɶɲt̪͡s̪ t̪ɒ xɘbæ̞ bæ̞ɾd͡zʲɶj jæ̞k n̪æ̞ʊkæ̞ dʲæ̞ɫɶkt̪ʊ bɘ bɘwɒ ɪ bɘc͡ç mɒʐɶ mæ̞t̪ɶɾʲæ̞wʊv ɲʲɶ pɒt̪ʂ̬ɶbæ̞ vʲɶɫɶ ∣ ɲʲɶt̪͡s̪ɒ pʲɒɬɶn̪ɶk çɶ pʂɘdæ̞ ɪ ʊʐɘt̪kɒvɲɪʈ͡ʂ̞kæ̞ dɒ kɒn̪vɶɾɬæ̞t̪͡s̪jɪ ∥ jɶdn̪ɒw̥ pʲɒɬɶn̪kɶ vʐʊt̪͡s̪æ̞ɱ v ɫɪn̪kʊ pɒɲɪʐɶj ∣ ɾɒzʊmʲɶɲʲɶ pʂɘn̪æ̞jmɲʲɶj t̪ʊt̪æ̞j ɲʲɶ ɬpɾæ̞vʲæ̞ ɡwɶɱbʂɘx t̪ɾʊdn̪ɒçc͡çɪ ɪ zæ̞xɶɲt̪͡s̪æ̞jɒŋt̪͡s̪ɒ t̪ɒ bʐmɪ

    https://www.youtube.com/watch?v=0K540JmUc48

  23. W sumie to jakie ma znaczenie czego sobie życzy ogół użytkowników? Przecież nie poznasz ich wszystkich, a tylko wybrane osoby. Ja widzę chyba 2 rzeczy, które mogą uczynić naukę kaszubskiego sensowną. Pierwsza to zdobycie wiedzy o rozwoju języków słowiańskich. Druga – zdobycie wiedzy o polityce językowej Polski, o uwarunkowaniach społecznych itd.

    1. Częstochowa, Małopolska Region:

      ɡälu̞ ∣ ɲʲɛ̝ xt͡ɕäwbɘ̟ɱ pɔ̝ɕvʲɛ̝̃t͡ɕit͡ɕ ʈ͡ʂɐs̻u̞ näu̞t͡sɛ̝̈ ∣ ä pɔ̝t̪ɛ̝ɱ u̞s̻wɘʃɛ̝̈t͡ɕ ∣ ʒɛ̝ ɔ̝kɾädäɱ kɔ̝ɡɔ̝ɕ z̥ jɛ̝ɡɔ̝ d͡zʲɛ̝d͡zit͡st̪vɐ ∥ t̪ɛ̝ɾäz z̥ zɐs̻ɐdɘ̟ näjpʲɛ̝ɾv bɛ̝̃dɛ̝̃ pɘ̟t̪ät͡ɕ u̞ʒɘ̟t̪kɔ̝vɲiku̞v ∥ vɕɾu̞d̥ vɘ̟mʲɛ̝ɲʲɔ̝nɘ̟x pʂɛ̝z t͡ɕɛ̝bʲɛ̝ t̪äk näpɾɐvdɛ̝̃ int̪ɛ̝ɾɛ̝̈s̻u̞jɛ̝ mɲʲɛ̝ t̪ä pʲɛ̝ɾvʃɐ ʒɛ̝̈ʈ͡ʂ ∣ t̪ɔ̝ jɛ̝̈s̻t̪ bädäɲʲɛ̝ s̻wɔ̝vʲäɲs̻kix kɔ̝ʒɛ̝ɲʲi ∥ jɛ̝ɕli pɔ̝z̥näɱ kɐʃu̞bs̻ki ∣ z̥ pɛ̝vnɔ̝ɕt͡ɕɔ̝̃ dɔ̝däɱ ɡɔ̝ t̪ɛ̝ʒ dɔ̝ mɔ̝jɛ̝ɡɔ̝ pɾɔ̝ɡɾämu̞ ∣ xɔ̝t͡ɕ z̥ t̪ɛ̝ɡɔ̝ t͡sɔ̝̈ ʈ͡ʂɘt̪äɱ jɛ̝̈s̻t̪ bäɾd͡zɔ̝ ɾɔ̝zdɾɔ̝bʲɔ̝nɘ̟ dʲälɛ̝kt̪älɲʲɛ̝ ∥ mäɱ t̪ɛ̝ʒ näd͡zʲɛ̝jɛ̝̃ ∣ ʒɛ̝ v vʲɛ̝lkɔ̝pɔ̝ls̻t͡sɛ̝̈ i nä mäzɔ̝vʃu̞ ɲʲɛ̝ ɔ̝bɾäʒɔ̝̃ ɕɛ̝̃ nä mɲʲɛ̝ zä t̪ɔ̝ ∣ ʒɛ̝ pɾɐt͡su̞jɛ̝̃ näd zäpis̻ɛ̝̈ɱ ɲʲɛ̝ s̻vɔ̝jɛ̝j vɘ̟mɔ̝vɘ̟ v älfäbɛ̝t͡ɕɛ̝ fɔ̝nɛ̝t̪ɘʈ͡ʂnɘ̟ɱ ∥ piʃɛ̝̃ z̥ vɛ̝ɾs̻ji jɛ̝dɛ̝ŋ ʃɛ̝̈ɕt͡ɕ zɛ̝ɾɔ̝ älfä ɔ̝ɕɛ̝ɱ i ɲʲɛ̝ jɛ̝̈s̻t̪ t̪ɔ̝ vɛ̝ɾs̻jä finälnä ∥ ä t̪äk s̻ɛ̝̈ɾʲɔ̝ t̪ɔ̝ xt͡sɛ̝̃ pɔ̝mu̞t͡s ɔ̝b̥t͡sɔ̝̈kɾäjɔ̝vt͡sɔ̝̈ɱ v näu̞t͡sɛ̝̈ jɛ̝̃zɘ̟kä pɔ̝ls̻kʲɛ̝ɡɔ̝

      Toruń, Wielkopolska Region:

      ɡɐlu̞ ∣ ɲʲɛ xc͡çɐwbɘ̟ɱ pɔçvʲɛŋc͡çic͡ç ʈ͡ʂ̞ɐɬu̞ nɐu̞t̪͡s̪ɛ ∣ ɐ pɔt̪ɛɱ u̞ɬwɘ̟ʂɛc͡ç ∣ ʐɛ ɔkrɐdɐɱ kɔɡɔç z̥ jɛɡɔ d͡zʲɛd͡zit̪͡s̪t̪vɐ ∥ t̪ɛrɐz z̥ zɐɬɐdɘ̟ nɐjpʲɛrv bɛŋdɛ pɘ̟t̪ɐc͡ç u̞ʐɘ̟t̪kɔvɲiku̞ɸ ∥ vçru̞d̥ vɘ̟mʲɛɲʲɔnɘ̟x pʂɛz c͡çɛbʲɛ t̪ɐk nɐprɐvdɛ int̪ɛrɛɬu̞jɛ mɲʲɛ t̪ɐ pʲɛrvʂɐ ʐɛʈ͡ʂ̞ ∣ t̪ɔ jɛɬt̪ bɐdɐɲʲɛ ɬwɔvʲɐɲɬkix kɔʐɛɲʲi ∥ jɛçli pɔz̥nɐɱ kɐʂu̞bɬki ∣ z̥ pɛvnɔçc͡çɔɱ dɔdɐɱ ɡɔ t̪ɛʂ dɔ mɔjɛɡɔ prɔɡrɐmu̞ ∣ xɔc͡ç z̥ t̪ɛɡɔ t̪͡s̪ɔ ʈ͡ʂ̞ɘ̟t̪ɐɱ jɛɬt̪ bɐrd͡zɔ rɔzdrɔbʲɔnɘ̟ dʲɐlɛkt̪ɐlɲʲɛ ∥ mɐɱ t̪ɛʂ nɐd͡zʲɛjɛ ∣ ʐɛ v vʲɛlkɔpɔlɬt̪͡s̪ɛ i nɐ mɐzɔvʂu̞ ɲʲɛ ɔbrɐʐɔɱ çɛ nɐ mɲʲɛ zɐ t̪ɔ ∣ ʐɛ prɐt̪͡s̪u̞jɛ nɐd zɐpiɬɛɱ ɲʲɛ ɬvɔjɛj vɘ̟mɔvɘ̟ v ɐlfɐbɛc͡çɛ fɔnɛt̪ɘ̟ʈ͡ʂ̞nɘ̟ɱ ∥ piʂɛ z̥ vɛrɬji jɛdɛŋ ʂɛçc͡ç zɛrɔ ɐlfɐ ɔçɛɱ i ɲʲɛ jɛɬt̪ t̪ɔ vɛrɬjɐ finɐlnɐ ∥ ɐ t̪ɐk ɬɛrʲɔ t̪ɔ xt̪͡s̪ɛ pɔmu̞t̪͡s̪ ɔpt̪͡s̪ɔkrɐjɔvt̪͡s̪ɔɱ v nɐu̞t̪͡s̪ɛ jɛŋzɘ̟kɐ pɔlɬkʲɛɡɔ

      Warszawa, Mazowsze Region:

      ɡæ̞ɫʊ ∣ ɲʲɶ xc͡çæ̞wbɘɱ pɒçvɪɶɲc͡çɪc͡ç ʈ͡ʂ̞æ̞ɬʊ n̪æ̞ʊt̪͡s̪ɶ ∣ æ̞ pɒt̪ɶɱ ʊɬwɘʂɶc͡ç ∣ ʐɶ ɒkɾæ̞dæ̞ɱ kɒɡɒç z̥ jɶɡɒ d͡zʲɶd͡zɪt̪͡s̪t̪væ̞ ∥ t̪ɶɾæ̞z z̥ zæ̞ɬæ̞dɘ n̪æ̞jpʲɶɾv bɶŋdɶ pɘt̪æ̞c͡ç ʊʐɘt̪kɒvɲɪkʊv ∥ vçɾʊd̥ vɘmʲɶɲʲɒn̪ɘx pʂɶz c͡çɶbʲɶ t̪æ̞k n̪æ̞pɾæ̞vdɶ ɪn̪t̪ɶɾɶɬʊjɶ mɲʲɶ t̪æ̞ pʲɶɾvʂæ̞ ʐɶʈ͡ʂ̞ ∣ t̪ɒ jɶɬt̪ bæ̞dæ̞ɲʲɶ ɬwɒvʲæ̞ɲɬkɪx kɒʐɶɲʲɪ ∥ jɶçɫɪ pɒz̥n̪æ̞ɱ kæ̞ʂʊbɬkɪ ∣ z̥ pɶvn̪ɒçc͡çɒw̥ dɒdæ̞ɱ ɡɒ t̪ɶʂ dɒ mɒjɶɡɒ pɾɒɡɾæ̞mʊ ∣ xɒc͡ç z̥ t̪ɶɡɒ t̪͡s̪ɒ ʈ͡ʂ̞ɘt̪æ̞ɱ jɶɬt̪ bæ̞ɾd͡zɒ ɾɒzdɾɒbʲɒn̪ɘ dʲæ̞ɫɶkt̪æ̞ɫɲʲɶ ∥ mæ̞ɱ t̪ɶʂ n̪æ̞d͡zʲɶjɶ ∣ ʐɶ v vʲɶɫkɒpɒɫɬt̪͡s̪ɶ ɪ n̪æ̞ mæ̞zɒvʂʊ ɲʲɶ ɒbɾæ̞ʐɒw̥ çɶ n̪æ̞ mɲʲɶ zæ̞ t̪ɒ ∣ ʐɶ pɾæ̞t̪͡s̪ʊjɶ n̪æ̞d zæ̞pɪɬɶɱ ɲʲɶ ɬvɒjɶj vɘmɒvɘ v æ̞ɫfæ̞bɶc͡çɶ fɒn̪ɶt̪ɘʈ͡ʂ̞n̪ɘɱ ∥ pɪʂɶ z̥ vɶɾɬjɪ jɶdɶn̪ ʂɶçc͡ç zɶɾɒ æ̞ɫfæ̞ ɒçɶɱ ɪ ɲʲɶ jɶɬt̪ t̪ɒ vɶɾɬjæ̞ fɪn̪æ̞ɫn̪æ̞ ∥ æ̞ t̪æ̞k ɬɶɾʲɒ t̪ɒ xt̪͡s̪ɶ pɒmʊt̪͡s̪ ɒb̥t̪͡s̪ɒkɾæ̞jɒvt̪͡s̪ɒɱ v n̪æ̞ʊt̪͡s̪ɶ jɶw̥zɘkæ̞ pɒɫɬkʲɶɡɒ

      1. Nie rozumiem (i nie chodzi o trudny zapis 😉 ). Kogo niby możesz okradać i co ten okradany miałby tracić? Kaszubski to nie jest conlang do którego ktoś ma prawa autorskie. Nawet jak od pojedynczej osoby usłyszysz coś niemiłego, to na pewno nie od każdego. Nawet jakby ogół miał jakieś dziwne, bliskie faszyzmowi pomysły (w co wątpię), to przecież nie poznasz ogółu tysięcy ludzi, a mniejsze grono pojedynczych osób.

      2. Częstochowa, Małopolska Region:

        xɔ̝mɔ̝ s̻ɐpʲɛ̝ns̻ɘ ɲʲɛ̝ s̻ɔ̝̃ lɔ̝ɡiʈ͡ʂnɛ̝ ∥ v jäkixɕ kɔ̝mɛ̝nt̪äʒäx bɘ̟wɔ̝ jü̞ʒ ɔ̝ t̪ɘ̟ɱ ∣ ʒɛ̝ ɲʲɛ̝kt̪u̞ʒɘ̟ mu̞ʒɘ̟ɲi nä käɾäibäx i v äfɾɘt͡sɛ̝̈ ∣ jäk i pɔ̝nɔ̝t͡ɕ ɲikt̪u̞ʒɘ̟ indʲäɲʲɛ̝ z̥ u̞ ɛ̝̈s̻ ä ∣ ɲʲɛ̝ pʂɛ̝pädäjɔ̝̃ zä pɔ̝mɘs̻wɛ̝ɱ ∣ bɘ̟ u̞ʈ͡ʂɔ̝̈nɔ̝ ɕɛ̝̃ ix mɔ̝vɘ̟ ∥ jäk jɛ̝̈s̻t̪ z̥ kɐʃu̞bämi ɲʲɛ̝ vʲɛ̝ɱ ∣ vʲɛ̝̃t͡s pɘ̟t̪äɱ ∥ älɛ̝ dɔ̝bɾä ∣ lɛ̝pʲɛ̝j zämkɲijmɘ̟ t̪ɛ̝mät̪

        pɛ̝ ɛ̝̈s̻ ∥ pʂɛ̝t͡ɕɛ̝ʒ jä s̻pɛ̝̈t͡själɲʲɛ̝ piʃɛ̝̃ v ṯʃɛ̝̈x vɐɾʲänt̪äx t̪äk ∣ bɘ̟ käʒɛ̝mu̞ bɘ̟wɔ̝ wät̪vɔ̝ ʈ͡ʂɘt̪ät͡ɕ

        Toruń, Wielkopolska Region:

        xɔmɔ ɬɐpʲɛnɬɘ̟ ɲʲɛ ɬɔɱ lɔɡiʈ͡ʂ̞nɛ ∥ v jɐkixç kɔmɛnt̪ɐʐɐx bɘ̟wɔ ju̞ʂ ɔ t̪ɘ̟ɱ ∣ ʐɛ ɲʲɛkt̪u̞ʐɘ̟ mu̞ʐɘ̟ɲi nɐ kɐrɐibɐx i v ɐfrɘ̟t̪͡s̪ɛ ∣ jɐk i pɔnɔc͡ç ɲikt̪u̞ʐɘ̟ indʲɐɲʲɛ z̥ u̞ ɛɬ ɐ ∣ ɲʲɛ pʂɛpɐdɐjɔɱ zɐ pɔmɘ̟ɬwɛɱ ∣ bɘ̟ u̞ʈ͡ʂ̞ɔnɔ çɛ ix mɔvɘ̟ ∥ jɐk jɛɬt̪ z̥ kɐʂu̞bɐmi ɲʲɛ vʲɛɱ ∣ vʲɛŋt̪͡s̪ pɘ̟t̪ɐɱ ∥ ɐlɛ dɔbrɐ ∣ lɛpʲɛj zɐmkɲijmɘ̟ t̪ɛmɐt̪

        pɛ ɛɬ ∥ pʂɛc͡çɛʂ jɐ ɬpɛt̪͡s̪jɐlɲʲɛ piʂɛ v t̪ʂɛx vɐrʲɐnt̪ɐx t̪ɐk ∣ bɘ̟ kɐʐɛmu̞ bɘ̟wɔ wɐt̪vɔ ʈ͡ʂ̞ɘ̟t̪ɐc͡ç

        Warszawa, Mazowsze Region:

        xɒmɒ ɬæ̞pʲɶn̪ɬɘ ɲʲɶ ɬɒw̥ ɫɒɡɪʈ͡ʂ̞n̪ɶ ∥ v jæ̞kɪxç kɒmɶn̪t̪æ̞ʐæ̞x bɘwɒ jʊʂ ɒ t̪ɘɱ ∣ ʐɶ ɲʲɶkt̪ʊʐɘ mʊʐɘɲɪ n̪æ̞ kæ̞ɾæ̞ɪbæ̞x ɪ v æ̞fɾɘt̪͡s̪ɶ ∣ jæ̞k ɪ pɒn̪ɒc͡ç ɲɪkt̪ʊʐɘ ɪn̪dʲæ̞ɲʲɶ z̥ ʊ ɶɬ æ̞ ∣ ɲʲɶ pʂɶpæ̞dæ̞jɒw̥ zæ̞ pɒmɘɬwɶɱ ∣ bɘ ʊʈ͡ʂ̞ɒn̪ɒ çɶ ɪx mɒvɘ ∥ jæ̞k jɶɬt̪ z̥ kæ̞ʂʊbæ̞mɪ ɲʲɶ vʲɶɱ ∣ vɪɶɲt̪͡s̪ pɘt̪æ̞ɱ ∥ æ̞ɫɶ dɒbɾæ̞ ∣ ɫɶpʲɶj zæ̞mkɲɪjmɘ t̪ɶmæ̞t̪

        pɶ ɶɬ ∥ pʂɶc͡çɶʂ jæ̞ ɬpɶt̪͡s̪jæ̞ɫɲʲɶ pɪʂɶ v t̪ʂ̬ɶx væ̞ɾʲæ̞n̪t̪æ̞x t̪æ̞k ∣ bɘ kæ̞ʐɶmʊ bɘwɒ wæ̞t̪vɒ ʈ͡ʂ̞ɘt̪æ̞c͡ç

  24. Dobra strona jest ta, że wypatrzyłem buga: "u" po "j" w wariancie z Częstochowy brzmi raczej [ü] niż [ü̞], jak przekształcił to algorytm wbrew temu, jak było to zamierzone. Wczoraj dopracowaując wymowę angielskiego z Sydney spostrzegłem, że niektóre "a" zapisuję bardzo blisko wielkopolskich "a" mimo, że brzmią inaczej. Doszlifowywanie tego programu jest masakryczne i to praca na lata, a myślę o dadaniu wymowy z Katowic i Lwowa. Przynajmniej Lwowianie się ucieszą, że o Nich pamiętamy. Zostało mi jeszcze dodać pięc dialektów języka hiszpańskiego, trzy już są wstępnie zrobione (w tym dwa z Hiszpanii). Osobom uczącym się hiszpańskiego się to powinno przydać – to w każdym razie jedyny taki program na świecie (o wsparciu dla keczua i tikuna nie wspominając) – tyle reklamy. 🙂 https://github.com/piotrbajdek/lngcnv

    1. Móc mogę – w przypadku języka polskiego wszystkie są na YouTube. Tylko, że wchodzi tylko jeden link na komentarz… W większości opieram się na nagraniach w tym stylu: https://www.youtube.com/watch?v=-d_XrfJ9i4M
      Wywiady z ludźmi, z których treści lub notki biograficznej wynika, że się w danym mieście urodzili, wychowali i conajmniej większość część życia w nim mieszkali. Są to sportowcy, muzycy, naukowcy, działacze społeczni, itd. Nie wiem, czy wypada ich z imienia i nazwiska wszystkich wymieniać–w tego typu badaniach zwykle korzysta się z danych zanonimizowanych.

      1. Ok, dzięki.
        Na YouTube część nagrań jest na licencji Creative Commons, jakby się udało takie zebrać, to możnaby udostępnić cały taki posegregowany dialektalnie zbiór do dalszych analiz, niestety nie ma takich nagrań za dużo.
        Pracuję teraz nad modelami do automatycznej detekcji formantów (działa to bardzo dobrze po wstępnych testach, a modele karmię samym obrazem spektrogramów bez ekstrakcji żadnych dodatkowych parametrów) – tu używam głównie nagrań angielskiego z USA i Kanady, udało mi się znaleźć sporo takich na otwartych licencjach, więc będę mógł później wypuścić te modele open source razem ze zbiorem i każdy będzie mógł eksperyment powtórzyć na tym samym zbiorze.

      2. Ciekawie to brzmi… Jak wypuścisz coś open-source, daj znać!

        W przypadku języka angielskiego, jest ciekawa strona z nagraniami -zapewne już ją znasz-, ale tu pojawiają się problemy z licencją:
        https://www.dialectsarchive.com/

        Ja jednak postanowiłem opracować angielski z Canberry, nie z Sydney.

      3. O, tej strony nie znałem. Nagrania z każdego stanu USA bardzo mi się przydadzą, a co do licencji to za powielanie tych plików każą sobie płacić wg indywidualnych stawek, może za niekomercyjny projekt by nie policzyli dużo, ale komplikuje to pewnie później udostępnianie projektu open source.
        Angielskich nagrań dużo znalazłem tu: https://rhinospike.com/language/
        Te są na otwartej licencji. Wszystkie to tekst czytany a nie spontaniczna wypowiedź, ale to też ma swoje zalety, bo np. różnice między samogłoskami w różnych dialektach mogą być jeszcze bardziej uwypuklone.

        Jak wypuszczę jakiś projekt językowy open source, to na pewno napiszę gdzieś na woofli.

      4. To jeszcze moja druga ulubiona strona na temat języka angielskiego, również z odnośnikami do YouTube do nagrań z wszystkich stron USA i Kanady: https://aschmann.net/AmEng/
        Szkoda, że brakuje Australii.

        Licencja z IDEA chyba nie zabrania pobierania (ale aby pobrać, trzeba prześledzić kod źródłowy strony w przeglądarce i znaleźć bezpośredni odnośnik do nagrania). Nie można tylko rozpowszechniać lub publicznie odtwarzać z własnego dysku.

      5. Muszę przyznać, że jestem pod wrażeniem – to największy, najbardziej szczegółowy zbiór zgromadzony w jednym miejscu na temat amerykańskiej fonetyki, jaki widziałem kiedykolwiek, na dodatek z masą nagrań (niektóre linki z youtube już niestety nie działają, ale i tak jest tego bardzo dużo). Nie sądziłem, że coś takiego istnieje. Przyda się bardzo, już mniejsza z licencjami, na prywatny użytek i tak wniesie bardzo dużo.
        Można nie zauwayżyć, ale ta mapa jest interaktywna, po kliknięciu w dane miejsce przeniesie nas na dół do linku z nagraniem.

        Przydałoby się coś takiego dla Polski. Na bazie tych modeli do ekstrakcji formantów myślałem, żeby zbudować narzędzie do automatycznego klastrowania i mapowania samogłosek danej osoby, może to by pomogło w tworzeniu i zarządzaniu takimi zbiorami.

      6. Można zrobić coś podobnego dla języka polskiego – stronę internetową z mapą podziału dialektalnego, cech wymowy, oraz z odnośnikami do nagrań na YouTube dla reprezentatywnej wymowy z różnych miast i wsi.

        Pytanie, kto to zrobi? Poloniści/ profesjonalni lingwiści tego raczej nie zrobią. Za pisanie stronek internetowych (intencjonalnie zdrabniam) nie ma punktów od Ministerstwa. Liczą sie publikacje w pismach recenzowanych.

        W przypadku języka polskiego sprawdzi się też ta zasada żywcem cytowana ze strony Ricka Aschmanna:
        "Do people who live in Kearney say, “Oh, yes, the people in Grand Island really talk different from us!”? No! They don’t even notice the differences until these are pointed out, even though these differences are easily demonstrated through word comparison, and make a difference phonemically. Even people from Grand Island don’t notice them, and they would have more of a reason to do so, since it involves the loss of distinctions that they retain. (I have personally interviewed many people from this whole area, and these lines are very real and well-defined!) Most people’s internal filters prevent them from being aware of such differences: they adjust what they hear to their own sound system."

        Częstochowskie "dziękuję", toruńskie "dzienkuje" i warszawskie "dzieńkuje". Częstochowskie "są", toruńskie "som" i warszawskie "soł". Będąc z Częstochowy, słuchając mowy z Wielkopolski i -zwłaszcza- z Mazowsza ledwo własnym uszom wierzyłem (pomimo spędzonych paru lat w Warszawie!). Język polski owszem jest zróżnicowany dialektalnie. Polacy pytani przez obcokrajowców odpowiadają jednak, że jest "jeden standard", oraz gwara podhalańska no i na wschodzie coś zaciągają. Tu działa coś takiego, jak podaje Rick Aschmann.

        Moje piersze odsłuchy zgodne są z tym, że w czasie, gdy zaczynano po polsku pisać, to na Wyżynie Krakowsko-Częstochowskiej, tj. w Krakowie, znajdowała się stolica Polski. Także pisownia najwierniej oddaje dialekt małopolski.

      7. Kto to zrobi – nie wiem, ale zrobienie stronki internetowej to tutaj najmniejszy problem, osoba która potrafi je robić poskłada coś używalnego w 2-3 godziny. Potrzebne są przede wszystkim dane i ich analiza przez osobę mającą wiedzę o fonetyce.
        Zebranie danych jest czasochłonne. Próbowałem pójść na łatwiznę i zebrać próbki z serwisu rhinospike, który wklejałem wyżej – niestety prawie każdy deklaruje "standardowy polski", bez podania choćby województwa skąd są (podobnie jak prawie każdy Amerykanin twierdzi, że mówi "General American"). Więc to źródło odpada.
        Pozostaje skupienie się na osobach publicznych jak Ty to robisz, albo poszukiwanie wolontariuszy z całego kraju, którzy są skłonni się nagrać. To drugie w sumie nie musi być trudne skoro każdy ma smartphona i internet. Wyobrażam sobie, że można stworzyć apkę mobilną, która poprosi o przeczytanie jakiegoś tekstu, albo będzie pokazywać jakieś zdjęcia z prośbą o opisanie co na nich jest, co by uzyskać bardziej naturalne wypowiedzi + krótka ankieta (wiek, miejsce urodzenia). Wrzucenie tego na kilka serwisów społecznościowych i podejrzewam, że łatwo zbierze się z kilka tysięcy próbek. Tyle, że to będą głównie osoby młode, najciekawiej jakby zebrać dane od osób w różnym wieku.
        Moim zdaniem takie coś to byłby ciekawy projekt i pożyteczny, nawet chętnie bym się tym zajął jak dokończę obecne projekty.

      8. To nie brzmi nawet źle. Oprzeć się na gotowych nagraniach z YouTube jest szybciej, prościej. Ludzie wiedząc, że nagrywają się w celu analizy wymowy, będą uważać, jak wymawiają każde "jabłko".

        Wciąż pozostaje pytanie, kto to zrobi. Czy zrobisz to sam? Ja mogę poświęcić jakiś procencik moich językowych wysiłków na zbiór i może zwłaszcza analizę tych danych. Mowa o 5% mojej mocy przerobowej (pozostałe 95% rezerwuję hiszpańskiemu, tikuna, keczua, angielskiemu i innym). No chyba, że projekt zyskałby jakiś sponsoring to -czemu nie- mogę wygospodarować i parę godzin dziennie dialektologii języka polskiego.

        Dobrze będzie zebrać grupkę osób, kilka wyszukujących nagrania, oraz kilka znających fonetykę, oraz ze dwie od spraw technicznych/strony internetowej (jakby jedna się w jakimś momencie wykruszyła). Chodzi o to, by np. moje odsłuchy były niezależnie potwierdzone przez inną osobę biegłą w fonetyce (lub też obsłudze oprogramowania – moje obserwacje są w 100% ze słuchu). Do tego jakieś firmy/instytucje sponsorujące projekt.

        Trzeba o tym napisać na jakimś forum językowym oraz na jakimś polonistycznym. Na Woofli z nikim się nie zgadamy.

      9. Zastanawiałem się nad tym projektem. Dla mnie najbardziej atrakcyjna jest wizja masowego kolekcjonowania danych i automatyzacja analiz narzędziami big data, ale po przemyśleniu zgadzam się: najłatwiej będzie wystartować i mieć coś z czego można korzystać zaczynając od stopniowego dodawania nagrań z YouTube czy podobnych.

        Myślę, że najprościej będzie zacząć, jeśli zbuduję prostą stronę, która w pierwszej wersji powinna zawierać:
        – mapę, na której można wybrać miejscowość (lub też zamiast szukania na mapia, można ją wpisać/wybrać z listy),
        – możliwość dodania linku z nagraniem i opisem,
        – możliwość dodawania danych linków przez każdego, ale do akceptacji przez admina.
        Na tym będzie już można pracować i nie dublować się szukając ludzi z tych samych regionów.
        Z czasem będzie można też dodać możliwość dodawania własnych plików z nagraniami, etc.

        Od siebie mogę dodać jeszcze:
        – mogę przeanalizować część nagrań z mową w programie Praat i przygotować podsumowania z takich analiz,
        – z czasem mogę zintegrować narzędzia do automatycznej analizy, które tworzę niezależnie od tego projektu,
        – mogę również dodawać nowe nagrania (najlepiej na licencji Creative Commons, bo oprócz dodania linku można je później przetwarzać, i np. wrzucić na stronę fragmenty z danymi cechami mowy, czy też karmić nimi różne modele. Również zachęcam do szukania – w miarę możliwości – nagrań na otwartych licencjach).

        Co do finansowania, nie myślałem zbyt dużo o szukaniu finansowania czy komercjalizacji takich językowych projektów, ale teoretycznie zdobycie grantu na to jest wykonalne. Póki co planuję rozruszać i wspierać taki projekt pro bono, a czy wyjdzie z tego faktycznie coś z potencjałem na rozwój, to się okaże.

      10. Mam Praata, ale nigdy nie używałem. Tomku, jak sobie te automatyczne narzędzia, Praat lub te rozwijane przez Ciebie, radzą z analizą spółgłosek?

        Wczoraj wsłuchując się w nagrania hiszpańskiego z centralnego Meksyku (w Audacity) doszedłem do wniosku, że w Warszawie i w Toruniu nie jest wymawiana głoska "z". W Częstochowie /z/ realizowane jest jako piękne czyste [z] na każdym z nagrań i sam tak wymawiam, ale w Warszawie i w Toruniu na nagraniach brzmi inaczej i zdaje się być boczną głoską [l͜ʒ]. Zmiana jest analogiczna do tej z /s/, obecnie wedle mojego programu realizowanego jako [s̻] w Częstochowie, ale [ɬ] w Warszawie i w Toruniu (jak również w centralnym Meksyku, który dodam wkrótce).

        Na żadnym z nagrań z Warszawy nie usłyszałem chyba ani jednego [z]. :-O
        https://www.youtube.com/watch?v=C_IPG93aRaI

        Czy te programy będą w stanie rozróżnić pomiędzy np. [s̻] i [ɬ] lub [z] i [l͜ʒ]?

      11. Ogólnie, to jeśli różnicę między dwoma dźwiękami jest w stanie odróżnić człowiek, to teoretycznie odpowiednio duża sieć neuronowa również powinna być w stanie się tego nauczyć. Pytanie w jaki sposób ją tego nauczyć.

        Wymaga to chyba innego podejścia. Samogłoski da się opisać wartościami ciągłymi, jeśli zmapujemy sobie dwie samogłoski, które jest w stanie wymówić człowiek na podstawie ich formantów do przestrzeni dwuwymiarowej (czy wyższej), połączymy je linią, to każdy punkt na tej linii to również istniejąca samogłoska. Modele regresyjne radzą sobie z tym dobrze.
        Parametry spółgłosek to głównie wartości dyskretne, albo należy do tej kategorii albo do tej, ale np. miejsce artykulacji też chyba do pewnego stopnia powinno się dać przedstawić jako wartość ciągłą?
        Nie zajmowałem się za bardzo analizą spógłosek, trzeba by zajrzeć do literatury jak analizować spektrogram pod ich względem. Na pewno jest to trudniejsze niż samogłoski.

      12. @Tomek

        Ogólnie, to jeśli różnicę między dwoma dźwiękami jest w stanie odróżnić człowiek, to teoretycznie odpowiednio duża sieć neuronowa również powinna być w stanie się tego nauczyć. Pytanie w jaki sposób ją tego nauczyć.

        Można przygotować w IPA transkrypcje mowy, z przykładami użycia np. [s̻], [s̺], [s̬], [ɬ], tak by sieć nauczyła się rozumieć tak, jak autor transkrypcji. Tylko, że z tego co rozumiem -nigdy się tym nie zajmowałem-, trenowanie tych sieci wymaga olbrzymiej ilości danych, a robienie bardzo drobiazgowych transkrypcji jest ciężkie.

        Być może z pomocą może przyjść mój program lngcnv. W teorii wystarczy wziąć nagranie w dobrze znanym nam dialekcie (dowolnego języka), zrobić ortograficzny zapis nagrania, a lngcnv wygeneruje jak "powinno" wyglądać to w IPA. To tylko pewne przybliżenie tego, co faktycznie będzie słychać na nagraniu, ale wygenerowanie tysiąca stron w IPA za pomocą lngcnv zajmuje jedną sekundę lub max. kilka sekund (zależy od języka i od procesora). Ręczne spisywanie ze słuchu tysiąca stron zajmie wieczność. Trzeba tylko zrobić ortograficzne transkrypcje mowy nagrań w dobrze znanych dialektach.

        Samogłoski da się opisać wartościami ciągłymi, jeśli zmapujemy sobie dwie samogłoski, które jest w stanie wymówić człowiek na podstawie ich formantów do przestrzeni dwuwymiarowej (czy wyższej), połączymy je linią, to każdy punkt na tej linii to również istniejąca samogłoska. Modele regresyjne radzą sobie z tym dobrze.

        Samogłoski chyba też wymagają przestrzeni trójwymiarowej? Dwa wymiary to płaszczyzna diagramu samogłoskowego, trzeci wymiar to stopień zaokrąglenia, czyli różnica [ɶ], [ɶ̜], [a̹], [a].

        Parametry spółgłosek to głównie wartości dyskretne, albo należy do tej kategorii albo do tej, ale np. miejsce artykulacji też chyba do pewnego stopnia powinno się dać przedstawić jako wartość ciągłą?

        Różnica pomiędzy [s] i [ɬ] jest oczywiście ciągła – język itd. można ułożyć na nieskończoną ilość sposobów. W moich transkrypcjach stosuję też symbole takie jak [f̟], tj. [f] przybliżające się w stronę [ɸ]. Być może tego rodzaju z pozoru "drobne różnice" najłatwiej byłoby trenować na językach, w których robią rozróżnienie fonemiczne, weźmy dla przykładu "trzy fonemiczne rodzaje k" w keczua z Cusco.

        Fajnie byłoby zrobić opcję automatycznej detekcji tonów, ale tonów jedynego języka tonalnego jakiego się uczę -tikuna- nie da się zapisać za pomocą IPA. Po pierwsze do zapisu tonów fonemicznych w tikuna potrzebna jest conajmniej sześciolinia, podczas gdy IPA oddaje jedynie marnych pięć wysokości. Następnie mając sześć podstawowych wysokości można dodać tony konturowe-kombinowane. Po drugie w tikuna występują tony, w których pierwsza połowa samogłoski jest równa, a druga połowa jest trzeszcząca, albo też odwrotnie pierwsza połowa samogłoski jest trzeszcząca, a druga połowa jest równa, albo całość jest równa, albo całość trzeszcząca. Rozróżnienie pomiędzy zatrzeszczeniem w pierwszej lub w drugiej części samogłoski ma charakter fonemiczny w części (większości?) dialektów – tego się nawet nie da zapisać z użyciem oficjalnego IPA bez stworzenia jakieś własnej konwencji.

        W tikuna są też trzy stopnie nosowości samogłosek z rozróżnieniem fonemicznym pomiędzy na wpół nosową, a silniej nosową.

        Jeszcze odności sponsorowania… Ubiegłej nocy udało mi się skofigurować do końca sponsorowanie na GitHubie po akceptacji adminów, itd. Nie wiem, czy ktoś kiedyś prześle mi dolara na rozwój lngcnv, ale technicznie rzecz biorąc projekty open source da się sposorować i bez grantu od Ministerstwa. Obawiam się, że tego rodzaju programy jak mój lub Twoje, nad którymi pracujesz, mogą mieć okropnie wąską bazę użytkowników. A szkoda, przecież drobiazgowa wymowa języka polskiego lub hiszpańskiego POWINNA się przydać MILIONOM ludzi uczącym się tych języków. Mój program jest chyba jedynym na świecie, który w szczegółach podejmuje ten problem.

      13. P.S. Połączone ze sobą dwa extra short more rounded [a̹], pierwsze lub drugie z nich creaky voiced: [ă̰͡ă̹] i [ă̹͡ă̰] Może coś takiego w zapisie tikuna?

      14. Co do konieczności dużej ilości danych, to nie jest to reguła. Zależy od problemu, np. przy rozpoznawaniu obiektów na zdjęciach zwykle potrzeba dużego zbioru tysięcy zdjęć, ale to jest wyższy poziom abtrakcji – żeby rozpoznać np. twarz człowieka na zdjęciu, sieć najpierw musi nauczyć się rozpoznawania krawędzi, potem w kolejnych warstwach prostych kształtów, potem obiektów typu oczy czy nos, i jeszcze wyżej.
        A np. odczytanie formantów ze spektrogramu jest znacznie mniej złożone. Model, który testowałem, działa całkiem dobrze po nauczeniu lekko ponad setką nagrań (gdzie każde nagranie to jedno słowo z ręcznie oznaczonymi formantami jednej samogłoski). Nie jest to wcale problem trywialny – klasyczne algorytmy, jak te w używane w Praat, wymagają ręcznego tuningowania ustawień do głosu różnych osób, a czasem nawet do różnych głosek danej osoby (a sieć neuronowa na podstawie danych nauczy się dostosowywać i wykrywa z automatu), ale nie jest to tak złożone jak wykrywanie jakiegoś obiektu na zdjęciu, który jeszcze może być po różnym kątem czy oświetleniem. O takich problemach zwykle się mówi w kontekście głebokiego uczenia i one faktycznie mogą wymagać olbrzymiej liczby danych (ale też niekoniecznie, jeśli zastosować np. transfer learning – model raz nauczony można wykorzystać do innych, zbliżonych zadań, bazując w znacznej części na tym, czego wcześniej się nauczył).

        Pomysł z generowaniem IPA z audio brzmi ok, można użyć istniejących narzędzi do generowania zapisu ortograficznego, a potem generowania IPA Twoim narzędziem. Jeden problem jaki widzę: trudno jest przewidzieć na co taka głęboka sieć nauczy się zwracać uwagę, one mają trochę tendencję do pójścia na łatwiznę. Jeśli nauczymy ją nagraniami wariantu polskiego, gdzie wymawiane jest /s̻/ i hiszpańskiego, gdzie wymawiane jest [ɬ], to sieć może wydedukować, że wszędzie tam gdzie dostaje polskie słowa ma być [s̻], tam gdzie hiszpańskie [s̻] i zawsze będzie tak podawać. Jeśli ją uczyć różnymi dialektami, to też może pójść na skróty, np. jeśli dialekt z daną spółgłoską ma też charakterystyczną wymowę samogłosek, to może nauczyć się wybierać spółgłoskę po brzmieniu samogłosek.
        Żeby tego uniknąć można w jakiś sposób ograniczyć konktekst do nauki, np. obcinając nagrania podczas trenowania.
        Takie błedy może być ciężko wykryć i łatwo je przeoczyć. Gdyby taką sięć trenować, a potem testować na tych samych dialektach, to patrząc po wynikach wszystko może wyglądać dobrze, a pod spodem może wnioskować całkiem inaczej niż byśmy chcieli – na nowych dialektach już wyjdzie źle. Bezpieczniej testować i trenować na różnych dialektach, albo może testować na spreparownych nagraniach (może jeszcze inaczej?).

        3 zmienne: F1, F2 i F3 powinny wystarczyć, żeby klasyfikować samogłoski na poziomie skuteczności zbliżonym do człowieka (za np. Hillenbrand et al. 1995, doi: 10.1121/1.411872), można dodać jeszcze długość i F0, z tymże klasyczne utożsamianie F1 i F2 z pozycją języka w pionie i poziomie, oraz F3 z zaokrągleniem to uproszczenie:
        https://swphonetics.com/2018/03/04/150th-anniversary-of-the-bell-vowel-model-5/
        Tu też fajna praca:
        "Relationship between tongue positions and formant frequencies in female speakers", doi: 10.1121/1.4939894

        Co do tonów, samo ich wyciągnięcie z nagrania nie powinno być trudne, to jest częstotliwość bazowa (F0) i wyciągnąć ją jeszcze łatwiej od formantów. Model, który mam do formantów mógłby równie dobrze wyciągać tony bez żadnych modyfikacji (ten model nie liczy średniej dla całej samogłoski, tylko wartość w danym punkcie czasowym, stąd też ładnie może odczytywać dyftongi, czy też właśnie tony). Samo wyciągnięcie to jedno, trzeba by to jeszcze posegregować i poklastrować.
        Nie zastanawiałeś się, żeby zaproponować International Phonetic Association (chyba oni tego pilnują?) rozszerzenia standardu?

        Co do popularności takich narzędzi, osób zainteresowanych fonetyką jest jednak dużo. To mała część osób uczących się języków, ale i tak dużo. Kwestia pewnie promocji i marketingu.

      15. Z tą "drogą na łatwiznę" to ciekawe. Sieć może mimo wszystko będzie rozpoznawać głoski, jeśli zbombarduje się ją niezbyt długimi, ale bardzo zróżnicowanymi próbkami wielu dialektów wielu różych języków? Głosek [s̻] i [ɬ] nie da sie przyporządkować językowi polskiego lub hiszpańskiemu – obie występują zarówno w polskim jak w hiszpańskim. Tj. /s/ w niektórych dialektach polskiego silniej przypomina /s/ z niektórych wariantów hiszpańskiego niż /s/ z innych wariantów języka polskiego. Nie wystarczy sieci rozpoznać język, by przewidzieć, jaki rodzaj /s/ powinien wystąpić. W innych wariantach hiszpańskiego pojawi się też [s̺] (jak w angielskim) i inne /s/. W moim dialekcie keczua wyznaczyłem cztery alofony głoski /a/, z których niektóre najbliżej pokryją się z językiem polskim, inne z angielskim, a inne z tikuna. Jedne rodzaje /i/ w keczua pokrywają się najbliżej z australijskim /i/, a inne z niektórymi hiszpańskimi /i/. Może wystarczy dobrze pomieszać języki i dawać tylko niewielkie próbki z każdego z dialektów, by ogłupić sieć i by rzeczywiście najprostszą drogą było rozpoznawanie głosek.

        Swoją drogą samo rozpoznawanie dialektów byłoby ciekawe. Wyobraźmy sobie program, w którym załączamy nagranie, a program odpowiada: mówiący jest z Kielc, mówiący jest z Lublina. Wystarczy powycinać nagrania różnych osób z YouTuba i posegregować według pochodzenia. Tylko, by sieć się nie nauczyła, że ludzie w Kielcach i w Lublinie rozmawiają o czym innym…

        Jako produkt uboczny nauki wygeneruję trochę drobiazgowych transkrypcji nagrań w kilku dialektach, manualnie wsłuchując się w każdą głoskę po kolei. Nagrania nie będą "mieć licencji", ale prywatnie sieć trenować z tych nagrań + moich transkrypcji pewnie byś mógł. Każdy dialekt to niemal kompletnie odmienny zestaw samogłosek + różnice w spółgłoskach.

        Generowanie IPA dla angielskiego z zapisu ortograficznego jest niestety skomplikowane, ale po mału pracuję nad tym… Będę mieć wymowę z Canberry w Australii, oraz rozważam możliwość w dalszej przyszłości dodać Minneapolis, USA. Zawsze można będzie wygenerować dłuższe teksty "z grubsza" z lngcnv i ewentualne błędy w niektórych słowach doszlifowywać już manualnie.

        Wydałem dziś lngcnv v1.6.0-alpha.11 z dodaniem wymowy języka hiszpańskiego dla Miasta Meksyk i kilkoma poprawkami w polskim i hiszpańskim. Niebawem dodam Santa Cruz de la Sierra, BO.

        Ja dziś przeczytam Hillenbrand et al. (1995), ale wydaje mi się, że 3-4 zmienne wystarczą, ale w przypadku języka angielskiego. W języku polskim "tą" i "to" różnią się kolejną zmienną, tj. nosowością: [t̪ɔ̝̃] i [t̪ɔ̝]. W tikuna są stopnie nosowości, różne długości samogłoski, tony.

      16. *Miałem na myśli, że jako produkt uboczny nauki TIKUNA wygeneruję te transkrypcje w IPA.

      17. Tak, tamta praca dotyczyła angielskich samogłosek. Z tą nosowością to ciekawa sprawa, z tego co widzę nie ma konsensusu w jakis sposób właściwie coś takiego jak "stopień nosowości" skwantyfikować. Z tego co pobieżnie zobaczyłem zwraca się uwagę na dwa dodatkowe wzmocnienia które się pojawiają przy nosowych głoskach, jedno pod pierwszym formantem, drugie między pierwszym i drugim, i zwraca się uwagę nie tylko na ich częstotliwość, tylko na amplitudę. Tyle, że to pierwsze wzmocnienie może się nałożyć na pierwszy formant i sytuacja się komplikuje.

        Co do rozpoznawania dialektów, racja, że sieć mogła by się np. nauczyć tematów rozmów (chociaż, żeby weszła na taki poziom abstrakcji musiałaby pewnie dostać bardzo dużo danych i musiałby to być wielki model). Tak samo jakby zebrać z jednego regionu jakieś formalne przemówienia, a z drugiego jakieś luźniejsze wypowiedzi, to prędzej się nauczy tonu czy szybkości mowy niż dialektu.
        Takie eskperymenty z rozpoznawaniem dialektów chyba widziałem i z tego co pamiętam nawet dobrze działało (możesz zajrzeć na https://paperswithcode.com/sota do sekcji z NLP, chyba tam gdzieś było).
        Myślałem nad tym, żeby pójść krok dalej i oprócz samej klasyfikacji zrobić model, który pozwala podejrzeć na podstawie czego właściwie taki model podejmuje decyzję (który fragment nagrania, jaka cecha akustyczna), takie w miarę interpretowalne modele być może dałoby się uzyskać korzystając np. z modułu Attention, czy też może jakieś jego pochodne, oryginalny pomysł jest już dość stary ("Attention is all you need" 2017 – w uczeniu maszynowym to całe wieki). Tak samo może dałoby się podejrzeć, na co model zwraca uwagę przy ocenie konkretnych głosek, choćby przy tym stopniu nosowości, co mogłoby wnieść jakiś wkład w analizę akustyczną.

        Ogólnie to myślę, że fonetyka z uczeniem maszynowym pięknie się zgrywa i jest to przepis na bardzo dobre publikacje z masą cytowań, jakby komuś się chciało to ubrać w porządne badania.

        A z tym angielskim IPA, może prościej znaleźć gotową bazę z zapisem fonemicznym (powinno być coś takiego w internecie do ściągnięcia) i z tego fonetyczny?

      18. Ta strona State-of-the-Art jest niezwykle ciekawa – nie wiedziałem, że coś takiego istnieje. Obecnie niestety na naukę AI nie znajdę wystarczająco czasu, ale ten link sobie zapisuję koniecznie.

        Odnośnie angielskiego IPA, to skomplikowane. Znalazłem gdzieś na jakichś stronach -bez kodu- podobne zamieniacze tekstu na IPA dla American English, ale raczej fonemiczne i domyślam się, że zwyczajnie bazujące na gotowej bazie słów, a nie na zmianie liter na głoski jak u mnie. Znane mi słowniki nie podają jednak wymowy dla Australian English. Przykładowo -dla niektórych słów- WordReference podaje przybliżoną wymowę w nawet 8 dialektach, ale australijskiego brakuje, podobnie jak nowozelandzkiego.

        Krętą drogą doszedłem do wniosku, że z bardzo drobnymi różnicami, najbliższy temu co słyszę w mowie w Canberze jest opis w Cox, F. and Palethorpe, S. (2007), teoretycznie bazujący na Sydney, ale z płytką dyskusją na temat całej Australii, choć sposób, w jaki ja używam symboli IPA się nieco różni od ichniego użycia IPA.

        Cox, F. and Palethorpe, S. 2007. Australian English. Journal of the International Phonetic Association 37 (3): 341–350.

        Nie wystarczyłoby mi też załadować jakąś spreparowaną listę słów. Słownik wymowę "at" może podać jako [ət̪], ale w pełnym zdaniu kombinacja "at an" brzmi już [əɹ ən]. Mowa łączona w języku angielskim wiele bowiem zmienia. Mój program oczywiście potrafi podać wymowę pojedynczego słowa, ale z założenia musi potrafić podawać wymowę pełnych zdań, a nie wyrwanych z kontekstu słów. Tym się m.in. różni od słownika.

        Użytkownik może wynaleźć mnóstwo własnych sposobów, jak program wykorzystać – np. może przekładać pełne teksty na IPA, po czym ćwiczyć czytanie na głos w ulubionym dialekcie.

        Inna sprawa, że zwyczajnie przyjąłem sobie za cel napisać wszystko, każdą linię kodu programu, jak również wszelką logikę każdego z zaimplementowanych algorytmów językowych, całkowicie od zera.

      19. *WordReference podaje IPA w dwóch dialektach (UK, US – cokolwiek się pod tym ma niby kryć), ale nagrania miewa w max. 8.

      20. Połaczenia typu 'at an' – tu chyba jednak trzeba odejść od prostej zmiany za pomocą replace na coś bardziej złożonego, jak w moim pomyśle z niemieckim ( https://mruczek.wiki/U%C5%BCytkownik:Gal/Brudnopis sekcja ,,Python kod"). Mój kod szuka sprawdza następne litery czy są typowymi spółgłoskami, czy samogłoskami; tu chyba będzie trzeba sprawdzać więcej kategorii np. osobno spółgłoski dźwięczne, osobno bezdźwięczne.

        Pomysł macie bardzo fajny i kibicuję; sam jednak aż tak bardzo fonetyki nie lubię żeby jakoś bardziej móc pomoć 😉

      21. Fonetyka jest ważna, by niechcący nie powiedzieć:
        "Przyjaciel na kolanie, ten przyjaciel w wacku."
        [fɹɛnt˨˧ ɪ̃n˧˨‿nɪː˨˦ ði̞s˨ dɛ̈˨ fɹɛnd̥˨‿ɪn˨ di̞kʰ˨˩˥]
        https://www.youtube.com/watch?v=RfXR40P00wU

        Galu, Twoje rozwiązanie jest szalenie złożone… Mój kod tymczasem działa prosto, jest łatwy w utrzymaniu, szybki w edycji i dla mnie czytelny:
        let str705b = &str705a.replace("at an", "aɹ an");
        Jeśli się na jakimkolwiek etapie rozwoju programu rozmyślę i stwierdzę, że Australijczycy wymawiają to jakoś inaczej, edytuję to w 10 sekund albo wytnę, choćbym to edytował za 30 lat gdy nie będę już pamiętać, jak bardziej złożony algorytm działał. Nie muszę rozgryzać żadnej złożonej logiki, by edytować taką nieskomplikowaną linijkę.

        Podobne zmiany w mowie łączonej robię w łacinie:
        let str25 = &str24.replace("n d", "m d");

        I w hiszpańskim:
        let str124 = &str123.replace("ŋ f", "ɱ f");

        To jest proste, czytelne i nie wiem, czemu miałoby pomóc komplikowanie tego.

      22. YPP: dodaj sobie też: https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv
        To jest dobry cykl wykładów, chyba najlepsze wprowadzenie do AI jakie widziałem w internecie. Nastawione na rozpoznawanie obrazu, ale większość tego przeno się też na analizę dźwięku – jeśli falę dźwiękową przekształcimy na spektrogram (tak zwykle dzisiaj się te modele uczy), to problem sprowadza się do analizy obrazu.

        Na pewne podstawy fonetyczne powinno się zwracać uwagę od pierwszych dni nauki moim zdaniem, co by nie budować sobie złych nawyków. Wsród ludzi panuje strasznie zero-jedynkowe podejście – skoro i tak nie będą mówić jak native speakerzy, to wymowę olewają kompletnie. Niestety nauczyciele angielskiego chyba też ten pogląd podzielają.

      23. Tomku, byłbyś w stanie patrząc na spektrogram określić, co było powiedziane?

        Owszem, nigdy nie będą mówić jak native speakerzy, ale to dlatego, że się tego nie uczą. Słyszę stopniową różnicę pomiędzy [i], [i̞], [e] lub [u], [u̞], [o] i potrafię ją powtórzyć – nawet nie uważam, by to było bardzo trudne. Jeśli będę mieć precyzyjnie określone zasady wymowy w jakimś dialekcie, co w zasadzie stoi na przeszkodzie, bym tak wymawiał?

        Mój program w wersji 1.6.0-alpha.11 (wciąż robocze) przewiduje takie zasady wymowy dla "have", "town" i "can":
        [hɶ̜v] [tæ̞ɔ̞n] [kʰæ̃ːn]
        W zwykłej pozycji samogłoska jest w pełni otwarta (na wpół zaokrąglona), w dyftongu jest nieco bardziej uniesiona/przyknięta, a unosowiona jest jeszcze bardziej uniesiona/przyknięta. Skoro określiłem zasady wymowy dla Canberry w Australii i słyszę różnicę pomiędzy każdą z tych głosek, co stoi na przeszkodzie bym wymawiał w zgodzie z zasadami? Wymawiając tak, jak wskazuje program, mogę uzyskać wymowę BARDZO "zbliżoną do oryginału". Może moją australijską wymową nie oszukam mieszkańca Canberry, ale wymawiając w ten sposób oszukam mieszkańca Wielkiej Brytanii lub USA.

        Jest jeszcze pewna melodia języka, a i z nią można się osłuchać, albo analizować. W pewnym sensie języki silnie tonalne, takie jak tikuna, może nawet są łatwiejsze w nauce niż języki pozbawione tonów, gdyż ucząc się od razu dostajemy w dużej części precyzyjne wytyczne jak intonować. Tonalne uchodzą jednak za trudne… Ubogi w tony mandaryński uchodzi za możliwy do opanowania tylko w dzieciństwie. Tymczasem jak należy intonować język hiszpański wyjaśnić może być znacznie ciężej.

      24. (Poprzedni post nie przeszedł, spróbuję jeszcze raz)

        Ładne nagrania, fajnie, że są podane IPA dla każdego słowa w każdym dialekcie.

        Ja trafiłem dzisiaj na coś takiego, może się przyda do Twojego programu: (link do PDFa usunąłem, prace można znaleźć w google:"Ortfon2 – tool for orthographic to phonetic transcription, 2005", ciekawie wygląda też "A Rule-Based Grapheme-to-Phoneme Conversion System, 2022").

        A odnośnie Twojego pytania wcześniej: łatwe w spektrogramach są samogłoski, zazwyczaj bardzo wyraźnie je widać. Pamiętam mniej więcej, które częstotliwości dają jakie brzmienie, więc większość samogłosek pewnie odczytam. Gorzej ze spółgłoskami.
        Przeczytać całe zdania może z grubsza byłbym w stanie, ale po dłuższym zastanowieniu i domyślaniu się z kontekstu niektórych głosek.
        Pewnie byłoby możliwe nauczenie się spektrogramów jako czegoś w rodzaju alfabetu i czytania tego w miarę płynnie, gdyby ktoś bardzo chciał.

      25. Dzięki, Tomku! Przejrzałem obie prace… Dobrze jest wiedzieć o podobnych projektach.

        To nad czym pracują/pracowali autorzy oby tych publikacji bardzo się różni od mojego programu tak pod względem lingwistycznym jak technicznym. Poprzyglądam się temu jeszcze, ale odnoszę wrażenie, że zdecydowanie bardziej jestem na pozycji, z której mogę dowodzić, że ja robię rzeczy lepiej, niż inspirować się rozwiązaniami technicznymi z tych publikacji i programów.

        Chcę prawdopodobnie w grudniu oficjalnie wydać wersję v1.6.0 (obecnie w fazie beta) – jestem już blisko, po czym pomyślę, by jakoś z programem dotrzeć (1) do miłośników języków i (2) może również do takich informatyków od przetwarzania języka.

        Ci ludzi nie wsłuchują się w nagrania – zwyczajnie zakodowali zasady transkrypcji opublikowane w cudzej publikacji z roku 1975. Przypuszczam, że jako informatycy nie rozróżniają głosek i tym samym są ograniczni do tego, co zostało opublikowane przez językoznawców, a może w tym wszystkich chodzi głównie o to, by wyszła publikacja w piśmie, więc "trzeba mieć co zacytować, skąd wzięto zasady".

        Dwa, choć w pierwszej z prac wielokrotnie w treści jak i w tytule pada "phonetic transcription", w obu mowa jest o transypcji fonemicznej. Moje transkrypcje są prawdziwie fonetyczne, a nie oszukane-fonemiczne. Do tego przedstawiam liczne dialektalne warianty wymowy (i będzie ich z czasem jeszcze więcej…). Pomijając już, że pracuję na sześciu różnych językach jednocześnie, w tym z Amazonii i And. 😛

        Pod względem technicznym mam znacznie dokładniejsze rezultaty przy użyciu znacznie prostszych metod. Nie wiem, po co wymyślać złożone algorytmy, albo wypisywać tak wiele reguł. Choćby w tej nowszej z publikacji, z 2022, autor chwali się, że napisał nowszy lepszy program tak: "The application was implemented in the C++ programming language. The implemented method uses a dictionary of 5018 words and 767 defined conversion rules. For comparison, the software presented by the author in this paper was implemented in Python programming language, 975 conversion rules were implemented and the dictionary is very limited and plays only a supporting role."

        975 zasad by oddać FONEMY języka polskiego!? Nie znalazłem kodu programu, ale po co tyle zasad…? Nie potrzebuję wymieniać wszystkich kombinacji, w których "c" wymawiane jest jako [t͡s], jeśli uprzednio przekonwertowałem tych ledwie kilka przypadków pozwalających wykryć [ʈ͡ʂ], [x] i [ɕ]. Dla języka polskiego całość da się ogarnać w mniej niż dwustu operacjach ułożonych w przemyślanej kolejności. Rzeczywiście na tę chwilę w części polskiej mój program nie radzi sobie z wyrazami typu "Chopin" i tu potrzeba zakodować mały słownik pospolitych wyjątków, ale powinienem dodać odpowiednią funkcję jeszcze w listopadzie. Może uproszczę też działania związane z detekcją końcowki słowa stosując w j. polskim rozwiązania opracowane dla j. hiszpańskiego, co skórci i przyspieszy algorytmy.

        Co do prędkości działania autor programu w Pythonie podaje, że przekonwertował Pana Tadeusza w 38 sekund, co mój program w Rust zrobi w drobnym ułamku sekundy (działając przy tym na słabszym sprzęcie!). Muszę dopracować szczegóły przez listopad, ale mimo wszystko oceniam, że językowo i technicznie góruję. 🙂

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Teraz masz możliwość komentowania za pomocą swojego profilu na Facebooku.
ZALOGUJ SIĘ