[Talk-br] spell check

Fernando Trebien fernando.trebien em gmail.com
Terça Fevereiro 4 19:03:54 UTC 2014


A área que o seu spell check cobre é muito grande:
http://www.openstreetmap.org/user/TrevorInserts/history#map

Eu acho pouco provável que você tenha revisado manualmente todos os
erros de português indicados pelo aspell nessas áreas todas. Se eu
estiver enganado, gostaria de conhecer o seu método.

2014-02-04 Marcelo Pereira <pereiraholder em gmail.com>:
> Fernando,
>
> Não entendi a pergunta.
>
> Marcelo Pereira
>
>
> Em 4 de fevereiro de 2014 13:17, Fernando Trebien
> <fernando.trebien em gmail.com> escreveu:
>
>> Hm ok. Mas como você está conseguindo fazer isso manualmente numa
>> escala tão grande e tão rápido?
>>
>> 2014-02-03 Marcelo Pereira <pereiraholder em gmail.com>:
>> > Fernando, pessoal,
>> >
>> > Como citei em mensagem anterior neste post, não estou fazendo spell
>> > check
>> > automático, a parte automatizada do script que uso é para atualizar e
>> > extrair do mapa o extract que preciso para trabalhar, e no fim fazer o
>> > upload do resultado.
>> >
>> > Uso o aspell para o spell check, e toda alteração que faço é manual, nem
>> > o
>> > "replace all" eu rodo.
>> >
>> > Além disso não estou focado em correções de nomes próprios, e sim em
>> > outros
>> > erros encontrados como grafias errôneas de nomes comuns, como Aveinda,
>> > Rau,
>> > e por aí vai.
>> >
>> > Os exemplos que foram descritos aqui, como o caso do JK, foi só um
>> > exemplo,
>> > e pelo que vi, acertado, pois alguem confirmou que o nome estava mesmo
>> > errado na área de conhecimento dele.
>> >
>> >
>> > Gerald,
>> >
>> > Ainda não estou convencido de que haja a necessidade de se inserir uma
>> > tag
>> > em cada nome corrigido, e explico isso.
>> >
>> > Quando se abre o iD, ou mesmo o JOSM e se atualiza o nome de uma rua,
>> > não há
>> > a necessidade de se incluir esse ou outro tipo de tag, se assim fosse, o
>> > trabalho de contribuição seria muito penoso, e lento, e ainda por cima
>> > afastaria os contribuintes, pelo custo-benefício das contribuições.
>> >
>> > Assim, como entendo estar fazendo a mesma coisa, com a diferença única
>> > de
>> > trabalhar com lotes de dados, considero que a descrição do changeset
>> > seja
>> > suficiente.
>> >
>> > Outra coisa que parece ter ficado mal explicado por mim, eu não estou me
>> > preocupando em normalizar a grafia dos nomes usados nas vias, e sim em
>> > identificar erros nos nomes digitados.
>> >
>> > Se for necessário adicionar essas tag em cada elemento, o trabalho
>> > adicional
>> > que terei ao acrescentar isso ao script tornará o trabalho dispendioso
>> > para
>> > mim e assim o abandonarei.
>> >
>> > Me interesso em continuar a fazer isso no OSM, pois assim o fiz nos
>> > mapas do
>> > Tracksource, e considero isso uma boa forma de contribuir para o
>> > projeto,
>> > pois já estou acostumado com ele, apesar de chato e repetitivo.
>> >
>> > Porém não quero que ele seja motivo para problemas ou que eu tenha que
>> > ficar
>> > gastando mais tempo explicando do que trabalhando no mapa.
>> >
>> > O processo que uso neste script é quase igual ao usado nos scripts
>> > anteriores que usei para substituir as abreviações pelos seus extensos,
>> > por
>> > exemplo, Dr. Prof, Av. Trav, e por aí vai. Nesse caso o scripts foram
>> > "publicados" no fórum.
>> >
>> > Como já disse, mesmo com todo cuidado, não há como garantir que não haja
>> > falsos positivos, mas mesmo que o processo fosse feito pelo iD, também
>> > não
>> > haveria essa garantia.
>> >
>> > Volto a registrar que se alguem encontrar algum erro nos meus changesets
>> > que
>> > os inviabilize, podem revertê-los sem dó, não tenho problemas com
>> > relação a
>> > isso.
>> >
>> > Entendo que pela natureza aberta da edição dos dados do OSM, é
>> > necessário um
>> > cuidado redobrado quando da alteração dos dados, e é por isso que eu
>> > mesmo
>> > me cerquei de certas garantias, como NÃO fazer replaces automáticos, e
>> > sim
>> > alterar caso a caso, mesmo que a mesma palavra se repetisse inúmeras
>> > vezes.
>> >
>> > Assim que possível irei publicar o script no fórum do projeto e avisarei
>> > por
>> > aqui.
>> >
>> > Att,
>> >
>> > Marcelo Pereira
>> >
>> >
>> >
>> > Em 3 de fevereiro de 2014 15:39, Fernando Trebien
>> > <fernando.trebien em gmail.com> escreveu:
>> >
>> >> Eu também não faria essa correção automática. Você pode estar
>> >> corrigindo 10% de erros e introduzindo outros 10% de erros novos.
>> >>
>> >> Processos automáticos precisam ser muito bem pensados, testados,
>> >> avaliados com grandes conjuntos de dados E (principalmente) combinados
>> >> com a comunidade antes de se iniciar o processo. O melhor também seria
>> >> descrever o processo no wiki, de modo similar ao que se faz com as
>> >> importações.
>> >>
>> >> Sua iniciativa é louvável, Marcelo, mas se por acaso algo der errado
>> >> nas suas correções (algo que poderia não dar caso tivesse contatado a
>> >> gente), desfazer provavelmente atrapalharia o trabalho de muitas
>> >> pessoas de uma só vez.
>> >>
>> >> 2014-02-03 Gerald Weber <gweberbh em gmail.com>:
>> >> >>>
>> >> >>> Coloque um source:spelling=
>> >> >>>
>> >> >>> assim na revisão sabemos o que houve
>> >> >>>
>> >> >>>
>> >> >>>
>> >> >>
>> >> >>
>> >> >> Isso é necessário mesmo ? No próprio changeset isso já está
>> >> >> registrado.
>> >> >
>> >> >
>> >> > Eu acho necessário sim. Você está dizendo diretamente que aquele nome
>> >> > foi
>> >> > alterado baseado em grafia de dicionário.
>> >> >
>> >> > Sugiro colocar
>> >> > source:spelling:pt=dictionary
>> >> > quando for trocar para a grafia original
>> >> >
>> >> > e
>> >> >
>> >> > source:spelling:pt=survey
>> >> >
>> >> > sempre que se verificou inequívocamente que a grafia da rua diverge
>> >> > do
>> >> > normal. Aqui o pt é de protuguês já que uma localidade pode ter nomes
>> >> > em
>> >> > outras línguas (por exemplo Berlin e Berlim, München e Munique).
>> >> >
>> >> > Já pesquisar pelo changeset é mais complicado e nem todo usuário sabe
>> >> > que
>> >> > isto existe. Quer dizer, você tem que primeiro desconfiar que houve
>> >> > uma
>> >> > alteração e olhar todos os changesets um por um no JOSM. Que eu saiba
>> >> > quem
>> >> > usa o iD ficaria sem saber mesmo.
>> >> >
>> >> >
>> >> >>>
>> >> >>> 1) como "proteger" uma grafia que de fato diverge do usual?
>> >> >>> 2) o que deve valer? o que está na placa ou o que está no
>> >> >>> dicionário?
>> >> >>>
>> >> >>   Se a grafia diverge do usual por um fator da cultura local, não
>> >> >> acho
>> >> >> que
>> >> >> tenha problemas em mante-la.
>> >> >
>> >> >
>> >> > A questão é: como sabemos que a grafia era de fato esta e que não foi
>> >> > um
>> >> > erro do mapeador? Sem verificar no local? Eu não tenho uma solução
>> >> > para
>> >> > este
>> >> > problema.
>> >> >
>> >> > E como fazemos para avisar que a grafia da rua está correta e que não
>> >> > deve
>> >> > ser alterada? Acho que
>> >> > source:spelling:pt=survey
>> >> > pode ser a solução
>> >> >
>> >> >>
>> >> >>
>> >> >>    Para mim isso encobertaria os muitos erros que se veem no mapa,
>> >> >> podendo
>> >> >> até afastar os possíveis usuários dele.
>> >> >>
>> >> >
>> >> > Sim e não. O correto seria verificar no local, por exemplo olhando a
>> >> > placa
>> >> > da rua, e ver que está lá de fato.
>> >> >
>> >> > Exemplo: aqui em BH temos a "Rua Passa Tempo", no dicionário você só
>> >> > vai
>> >> > achar "passatempo", mas o nome da rua é grafado separado mesmo
>> >> > (conferi
>> >> > pessoalmente e tenho um amigo que mora nesta rua que confirmou). E
>> >> > note
>> >> > que
>> >> > na rua há placas com as duas grafias!
>> >> >
>> >> > Eu já tomei tanta supresa com nomes estranhos que eu pensaria duas
>> >> > vezes
>> >> > antes de sair corrigindo só me baseando em dicionário, sem verificar
>> >> > com
>> >> > cuidado.
>> >> >
>> >> > Talvez em casos de dúvidas eu acrescentaria um
>> >> > fixme=verificar grafia da rua pessoalmente no local ou em documentos
>> >> > oficiais
>> >> > ao invés de alterar só baseado no dicionário.
>> >> >
>> >> > abraço
>> >> >
>> >> > Gerald
>> >> >
>> >> >
>> >> >
>> >> >
>> >> >
>> >> >
>> >> >
>> >> > _______________________________________________
>> >> > Talk-br mailing list
>> >> > Talk-br em openstreetmap.org
>> >> > https://lists.openstreetmap.org/listinfo/talk-br
>> >> >
>> >>
>> >>
>> >>
>> >> --
>> >> Fernando Trebien
>> >> +55 (51) 9962-5409
>> >>
>> >> "The speed of computer chips doubles every 18 months." (Moore's law)
>> >> "The speed of software halves every 18 months." (Gates' law)
>> >>
>> >> _______________________________________________
>> >> Talk-br mailing list
>> >> Talk-br em openstreetmap.org
>> >> https://lists.openstreetmap.org/listinfo/talk-br
>> >
>> >
>> >
>> >
>> > --
>> >
>> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>> >    É mentira da Ivete, não é meu esse caniveeeeeete...
>> > "Halley, Luiz" - Poeta, Cantor, Compsitor
>> >
>> > _______________________________________________
>> > Talk-br mailing list
>> > Talk-br em openstreetmap.org
>> > https://lists.openstreetmap.org/listinfo/talk-br
>> >
>>
>>
>>
>> --
>> Fernando Trebien
>> +55 (51) 9962-5409
>>
>> "The speed of computer chips doubles every 18 months." (Moore's law)
>> "The speed of software halves every 18 months." (Gates' law)
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
>
> --
>
> ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>    É mentira da Ivete, não é meu esse caniveeeeeete...
> "Halley, Luiz" - Poeta, Cantor, Compsitor
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)



Mais detalhes sobre a lista de discussão Talk-br