[Talk-br] spell check

Fernando Trebien fernando.trebien em gmail.com
Terça Fevereiro 4 20:52:38 UTC 2014


Ah bom, assim faz sentido. É bastante incomum essa forma de edição
(seja manual ou automática), elas geralmente são concentradas em
regiões pequenas.

Posso sugerir quebrar os changesets em regiões menores? Ajudaria na
revisão das alterações, e caso uma reversão for necessária afetaria
menos gente de uma só vez. O ideal seria dividir por cidade, ou pelo
menos por estado. Se você fizesse assim não precisaria dividir por
tipo de via, mas se você ainda achar interessante pra revisão, acho
que só faria sentido dividir em dois grupos: vias tipicamente rurais
(motorway, motorway_link, trunk, trunk_link) e vias tipicamente
urbanas (primary, primary_link, secondary, secondary_link, tertiary,
tertiary_link, residential, unclassified).

Sugeriria ainda colocar no source dos seus changesets um link
permanente (não encurtado) pra esse seu post no fórum. Pode ser muito
útil daqui a alguns anos.

2014-02-04 Marcelo Pereira <pereiraholder em gmail.com>:
> Fernando,
>
> Como disse aqui ontem, eu postei no fórum o script e a descrição do
> processo.
>
> Só faltou o link, taí :
>
> http://goo.gl/YGF0XG
>
> Nada além disso.
>
> Marcelo Pereira
>
>
> Em 4 de fevereiro de 2014 16:08, Arlindo Pereira
> <openstreetmap em arlindopereira.com> escreveu:
>
>> Imagino que ele esteja corrigindo esses nomes possivelmente por ordem de
>> ID - que denota a ordem temporal em que foram mapeadas -, ou por ordem
>> alfabética, de forma que os itens alterados não necessariamente são
>> próximos.
>>
>>
>> []s
>> Arlindo
>>
>> 2014-02-04 Fernando Trebien <fernando.trebien em gmail.com>:
>>
>>> A área que o seu spell check cobre é muito grande:
>>> http://www.openstreetmap.org/user/TrevorInserts/history#map
>>>
>>> Eu acho pouco provável que você tenha revisado manualmente todos os
>>> erros de português indicados pelo aspell nessas áreas todas. Se eu
>>> estiver enganado, gostaria de conhecer o seu método.
>>>
>>> 2014-02-04 Marcelo Pereira <pereiraholder em gmail.com>:
>>> > Fernando,
>>> >
>>> > Não entendi a pergunta.
>>> >
>>> > Marcelo Pereira
>>> >
>>> >
>>> > Em 4 de fevereiro de 2014 13:17, Fernando Trebien
>>> > <fernando.trebien em gmail.com> escreveu:
>>> >
>>> >> Hm ok. Mas como você está conseguindo fazer isso manualmente numa
>>> >> escala tão grande e tão rápido?
>>> >>
>>> >> 2014-02-03 Marcelo Pereira <pereiraholder em gmail.com>:
>>> >> > Fernando, pessoal,
>>> >> >
>>> >> > Como citei em mensagem anterior neste post, não estou fazendo spell
>>> >> > check
>>> >> > automático, a parte automatizada do script que uso é para atualizar
>>> >> > e
>>> >> > extrair do mapa o extract que preciso para trabalhar, e no fim fazer
>>> >> > o
>>> >> > upload do resultado.
>>> >> >
>>> >> > Uso o aspell para o spell check, e toda alteração que faço é manual,
>>> >> > nem
>>> >> > o
>>> >> > "replace all" eu rodo.
>>> >> >
>>> >> > Além disso não estou focado em correções de nomes próprios, e sim em
>>> >> > outros
>>> >> > erros encontrados como grafias errôneas de nomes comuns, como
>>> >> > Aveinda,
>>> >> > Rau,
>>> >> > e por aí vai.
>>> >> >
>>> >> > Os exemplos que foram descritos aqui, como o caso do JK, foi só um
>>> >> > exemplo,
>>> >> > e pelo que vi, acertado, pois alguem confirmou que o nome estava
>>> >> > mesmo
>>> >> > errado na área de conhecimento dele.
>>> >> >
>>> >> >
>>> >> > Gerald,
>>> >> >
>>> >> > Ainda não estou convencido de que haja a necessidade de se inserir
>>> >> > uma
>>> >> > tag
>>> >> > em cada nome corrigido, e explico isso.
>>> >> >
>>> >> > Quando se abre o iD, ou mesmo o JOSM e se atualiza o nome de uma
>>> >> > rua,
>>> >> > não há
>>> >> > a necessidade de se incluir esse ou outro tipo de tag, se assim
>>> >> > fosse, o
>>> >> > trabalho de contribuição seria muito penoso, e lento, e ainda por
>>> >> > cima
>>> >> > afastaria os contribuintes, pelo custo-benefício das contribuições.
>>> >> >
>>> >> > Assim, como entendo estar fazendo a mesma coisa, com a diferença
>>> >> > única
>>> >> > de
>>> >> > trabalhar com lotes de dados, considero que a descrição do changeset
>>> >> > seja
>>> >> > suficiente.
>>> >> >
>>> >> > Outra coisa que parece ter ficado mal explicado por mim, eu não
>>> >> > estou me
>>> >> > preocupando em normalizar a grafia dos nomes usados nas vias, e sim
>>> >> > em
>>> >> > identificar erros nos nomes digitados.
>>> >> >
>>> >> > Se for necessário adicionar essas tag em cada elemento, o trabalho
>>> >> > adicional
>>> >> > que terei ao acrescentar isso ao script tornará o trabalho
>>> >> > dispendioso
>>> >> > para
>>> >> > mim e assim o abandonarei.
>>> >> >
>>> >> > Me interesso em continuar a fazer isso no OSM, pois assim o fiz nos
>>> >> > mapas do
>>> >> > Tracksource, e considero isso uma boa forma de contribuir para o
>>> >> > projeto,
>>> >> > pois já estou acostumado com ele, apesar de chato e repetitivo.
>>> >> >
>>> >> > Porém não quero que ele seja motivo para problemas ou que eu tenha
>>> >> > que
>>> >> > ficar
>>> >> > gastando mais tempo explicando do que trabalhando no mapa.
>>> >> >
>>> >> > O processo que uso neste script é quase igual ao usado nos scripts
>>> >> > anteriores que usei para substituir as abreviações pelos seus
>>> >> > extensos,
>>> >> > por
>>> >> > exemplo, Dr. Prof, Av. Trav, e por aí vai. Nesse caso o scripts
>>> >> > foram
>>> >> > "publicados" no fórum.
>>> >> >
>>> >> > Como já disse, mesmo com todo cuidado, não há como garantir que não
>>> >> > haja
>>> >> > falsos positivos, mas mesmo que o processo fosse feito pelo iD,
>>> >> > também
>>> >> > não
>>> >> > haveria essa garantia.
>>> >> >
>>> >> > Volto a registrar que se alguem encontrar algum erro nos meus
>>> >> > changesets
>>> >> > que
>>> >> > os inviabilize, podem revertê-los sem dó, não tenho problemas com
>>> >> > relação a
>>> >> > isso.
>>> >> >
>>> >> > Entendo que pela natureza aberta da edição dos dados do OSM, é
>>> >> > necessário um
>>> >> > cuidado redobrado quando da alteração dos dados, e é por isso que eu
>>> >> > mesmo
>>> >> > me cerquei de certas garantias, como NÃO fazer replaces automáticos,
>>> >> > e
>>> >> > sim
>>> >> > alterar caso a caso, mesmo que a mesma palavra se repetisse inúmeras
>>> >> > vezes.
>>> >> >
>>> >> > Assim que possível irei publicar o script no fórum do projeto e
>>> >> > avisarei
>>> >> > por
>>> >> > aqui.
>>> >> >
>>> >> > Att,
>>> >> >
>>> >> > Marcelo Pereira
>>> >> >
>>> >> >
>>> >> >
>>> >> > Em 3 de fevereiro de 2014 15:39, Fernando Trebien
>>> >> > <fernando.trebien em gmail.com> escreveu:
>>> >> >
>>> >> >> Eu também não faria essa correção automática. Você pode estar
>>> >> >> corrigindo 10% de erros e introduzindo outros 10% de erros novos.
>>> >> >>
>>> >> >> Processos automáticos precisam ser muito bem pensados, testados,
>>> >> >> avaliados com grandes conjuntos de dados E (principalmente)
>>> >> >> combinados
>>> >> >> com a comunidade antes de se iniciar o processo. O melhor também
>>> >> >> seria
>>> >> >> descrever o processo no wiki, de modo similar ao que se faz com as
>>> >> >> importações.
>>> >> >>
>>> >> >> Sua iniciativa é louvável, Marcelo, mas se por acaso algo der
>>> >> >> errado
>>> >> >> nas suas correções (algo que poderia não dar caso tivesse contatado
>>> >> >> a
>>> >> >> gente), desfazer provavelmente atrapalharia o trabalho de muitas
>>> >> >> pessoas de uma só vez.
>>> >> >>
>>> >> >> 2014-02-03 Gerald Weber <gweberbh em gmail.com>:
>>> >> >> >>>
>>> >> >> >>> Coloque um source:spelling=
>>> >> >> >>>
>>> >> >> >>> assim na revisão sabemos o que houve
>>> >> >> >>>
>>> >> >> >>>
>>> >> >> >>>
>>> >> >> >>
>>> >> >> >>
>>> >> >> >> Isso é necessário mesmo ? No próprio changeset isso já está
>>> >> >> >> registrado.
>>> >> >> >
>>> >> >> >
>>> >> >> > Eu acho necessário sim. Você está dizendo diretamente que aquele
>>> >> >> > nome
>>> >> >> > foi
>>> >> >> > alterado baseado em grafia de dicionário.
>>> >> >> >
>>> >> >> > Sugiro colocar
>>> >> >> > source:spelling:pt=dictionary
>>> >> >> > quando for trocar para a grafia original
>>> >> >> >
>>> >> >> > e
>>> >> >> >
>>> >> >> > source:spelling:pt=survey
>>> >> >> >
>>> >> >> > sempre que se verificou inequívocamente que a grafia da rua
>>> >> >> > diverge
>>> >> >> > do
>>> >> >> > normal. Aqui o pt é de protuguês já que uma localidade pode ter
>>> >> >> > nomes
>>> >> >> > em
>>> >> >> > outras línguas (por exemplo Berlin e Berlim, München e Munique).
>>> >> >> >
>>> >> >> > Já pesquisar pelo changeset é mais complicado e nem todo usuário
>>> >> >> > sabe
>>> >> >> > que
>>> >> >> > isto existe. Quer dizer, você tem que primeiro desconfiar que
>>> >> >> > houve
>>> >> >> > uma
>>> >> >> > alteração e olhar todos os changesets um por um no JOSM. Que eu
>>> >> >> > saiba
>>> >> >> > quem
>>> >> >> > usa o iD ficaria sem saber mesmo.
>>> >> >> >
>>> >> >> >
>>> >> >> >>>
>>> >> >> >>> 1) como "proteger" uma grafia que de fato diverge do usual?
>>> >> >> >>> 2) o que deve valer? o que está na placa ou o que está no
>>> >> >> >>> dicionário?
>>> >> >> >>>
>>> >> >> >>   Se a grafia diverge do usual por um fator da cultura local,
>>> >> >> >> não
>>> >> >> >> acho
>>> >> >> >> que
>>> >> >> >> tenha problemas em mante-la.
>>> >> >> >
>>> >> >> >
>>> >> >> > A questão é: como sabemos que a grafia era de fato esta e que não
>>> >> >> > foi
>>> >> >> > um
>>> >> >> > erro do mapeador? Sem verificar no local? Eu não tenho uma
>>> >> >> > solução
>>> >> >> > para
>>> >> >> > este
>>> >> >> > problema.
>>> >> >> >
>>> >> >> > E como fazemos para avisar que a grafia da rua está correta e que
>>> >> >> > não
>>> >> >> > deve
>>> >> >> > ser alterada? Acho que
>>> >> >> > source:spelling:pt=survey
>>> >> >> > pode ser a solução
>>> >> >> >
>>> >> >> >>
>>> >> >> >>
>>> >> >> >>    Para mim isso encobertaria os muitos erros que se veem no
>>> >> >> >> mapa,
>>> >> >> >> podendo
>>> >> >> >> até afastar os possíveis usuários dele.
>>> >> >> >>
>>> >> >> >
>>> >> >> > Sim e não. O correto seria verificar no local, por exemplo
>>> >> >> > olhando a
>>> >> >> > placa
>>> >> >> > da rua, e ver que está lá de fato.
>>> >> >> >
>>> >> >> > Exemplo: aqui em BH temos a "Rua Passa Tempo", no dicionário você
>>> >> >> > só
>>> >> >> > vai
>>> >> >> > achar "passatempo", mas o nome da rua é grafado separado mesmo
>>> >> >> > (conferi
>>> >> >> > pessoalmente e tenho um amigo que mora nesta rua que confirmou).
>>> >> >> > E
>>> >> >> > note
>>> >> >> > que
>>> >> >> > na rua há placas com as duas grafias!
>>> >> >> >
>>> >> >> > Eu já tomei tanta supresa com nomes estranhos que eu pensaria
>>> >> >> > duas
>>> >> >> > vezes
>>> >> >> > antes de sair corrigindo só me baseando em dicionário, sem
>>> >> >> > verificar
>>> >> >> > com
>>> >> >> > cuidado.
>>> >> >> >
>>> >> >> > Talvez em casos de dúvidas eu acrescentaria um
>>> >> >> > fixme=verificar grafia da rua pessoalmente no local ou em
>>> >> >> > documentos
>>> >> >> > oficiais
>>> >> >> > ao invés de alterar só baseado no dicionário.
>>> >> >> >
>>> >> >> > abraço
>>> >> >> >
>>> >> >> > Gerald
>>> >> >> >
>>> >> >> >
>>> >> >> >
>>> >> >> >
>>> >> >> >
>>> >> >> >
>>> >> >> >
>>> >> >> > _______________________________________________
>>> >> >> > Talk-br mailing list
>>> >> >> > Talk-br em openstreetmap.org
>>> >> >> > https://lists.openstreetmap.org/listinfo/talk-br
>>> >> >> >
>>> >> >>
>>> >> >>
>>> >> >>
>>> >> >> --
>>> >> >> Fernando Trebien
>>> >> >> +55 (51) 9962-5409
>>> >> >>
>>> >> >> "The speed of computer chips doubles every 18 months." (Moore's
>>> >> >> law)
>>> >> >> "The speed of software halves every 18 months." (Gates' law)
>>> >> >>
>>> >> >> _______________________________________________
>>> >> >> Talk-br mailing list
>>> >> >> Talk-br em openstreetmap.org
>>> >> >> https://lists.openstreetmap.org/listinfo/talk-br
>>> >> >
>>> >> >
>>> >> >
>>> >> >
>>> >> > --
>>> >> >
>>> >> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>>> >> >    É mentira da Ivete, não é meu esse caniveeeeeete...
>>> >> > "Halley, Luiz" - Poeta, Cantor, Compsitor
>>> >> >
>>> >> > _______________________________________________
>>> >> > Talk-br mailing list
>>> >> > Talk-br em openstreetmap.org
>>> >> > https://lists.openstreetmap.org/listinfo/talk-br
>>> >> >
>>> >>
>>> >>
>>> >>
>>> >> --
>>> >> Fernando Trebien
>>> >> +55 (51) 9962-5409
>>> >>
>>> >> "The speed of computer chips doubles every 18 months." (Moore's law)
>>> >> "The speed of software halves every 18 months." (Gates' law)
>>> >>
>>> >> _______________________________________________
>>> >> Talk-br mailing list
>>> >> Talk-br em openstreetmap.org
>>> >> https://lists.openstreetmap.org/listinfo/talk-br
>>> >
>>> >
>>> >
>>> >
>>> > --
>>> >
>>> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>>> >    É mentira da Ivete, não é meu esse caniveeeeeete...
>>> > "Halley, Luiz" - Poeta, Cantor, Compsitor
>>> >
>>> > _______________________________________________
>>> > Talk-br mailing list
>>> > Talk-br em openstreetmap.org
>>> > https://lists.openstreetmap.org/listinfo/talk-br
>>> >
>>>
>>>
>>>
>>> --
>>> Fernando Trebien
>>> +55 (51) 9962-5409
>>>
>>> "The speed of computer chips doubles every 18 months." (Moore's law)
>>> "The speed of software halves every 18 months." (Gates' law)
>>>
>>> _______________________________________________
>>> Talk-br mailing list
>>> Talk-br em openstreetmap.org
>>> https://lists.openstreetmap.org/listinfo/talk-br
>>
>>
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>>
>
>
>
> --
>
> ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>    É mentira da Ivete, não é meu esse caniveeeeeete...
> "Halley, Luiz" - Poeta, Cantor, Compsitor
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)



Mais detalhes sobre a lista de discussão Talk-br