[Talk-br] spell check

Fernando Trebien fernando.trebien em gmail.com
Terça Fevereiro 4 16:17:04 UTC 2014


Hm ok. Mas como você está conseguindo fazer isso manualmente numa
escala tão grande e tão rápido?

2014-02-03 Marcelo Pereira <pereiraholder em gmail.com>:
> Fernando, pessoal,
>
> Como citei em mensagem anterior neste post, não estou fazendo spell check
> automático, a parte automatizada do script que uso é para atualizar e
> extrair do mapa o extract que preciso para trabalhar, e no fim fazer o
> upload do resultado.
>
> Uso o aspell para o spell check, e toda alteração que faço é manual, nem o
> "replace all" eu rodo.
>
> Além disso não estou focado em correções de nomes próprios, e sim em outros
> erros encontrados como grafias errôneas de nomes comuns, como Aveinda, Rau,
> e por aí vai.
>
> Os exemplos que foram descritos aqui, como o caso do JK, foi só um exemplo,
> e pelo que vi, acertado, pois alguem confirmou que o nome estava mesmo
> errado na área de conhecimento dele.
>
>
> Gerald,
>
> Ainda não estou convencido de que haja a necessidade de se inserir uma tag
> em cada nome corrigido, e explico isso.
>
> Quando se abre o iD, ou mesmo o JOSM e se atualiza o nome de uma rua, não há
> a necessidade de se incluir esse ou outro tipo de tag, se assim fosse, o
> trabalho de contribuição seria muito penoso, e lento, e ainda por cima
> afastaria os contribuintes, pelo custo-benefício das contribuições.
>
> Assim, como entendo estar fazendo a mesma coisa, com a diferença única de
> trabalhar com lotes de dados, considero que a descrição do changeset seja
> suficiente.
>
> Outra coisa que parece ter ficado mal explicado por mim, eu não estou me
> preocupando em normalizar a grafia dos nomes usados nas vias, e sim em
> identificar erros nos nomes digitados.
>
> Se for necessário adicionar essas tag em cada elemento, o trabalho adicional
> que terei ao acrescentar isso ao script tornará o trabalho dispendioso para
> mim e assim o abandonarei.
>
> Me interesso em continuar a fazer isso no OSM, pois assim o fiz nos mapas do
> Tracksource, e considero isso uma boa forma de contribuir para o projeto,
> pois já estou acostumado com ele, apesar de chato e repetitivo.
>
> Porém não quero que ele seja motivo para problemas ou que eu tenha que ficar
> gastando mais tempo explicando do que trabalhando no mapa.
>
> O processo que uso neste script é quase igual ao usado nos scripts
> anteriores que usei para substituir as abreviações pelos seus extensos, por
> exemplo, Dr. Prof, Av. Trav, e por aí vai. Nesse caso o scripts foram
> "publicados" no fórum.
>
> Como já disse, mesmo com todo cuidado, não há como garantir que não haja
> falsos positivos, mas mesmo que o processo fosse feito pelo iD, também não
> haveria essa garantia.
>
> Volto a registrar que se alguem encontrar algum erro nos meus changesets que
> os inviabilize, podem revertê-los sem dó, não tenho problemas com relação a
> isso.
>
> Entendo que pela natureza aberta da edição dos dados do OSM, é necessário um
> cuidado redobrado quando da alteração dos dados, e é por isso que eu mesmo
> me cerquei de certas garantias, como NÃO fazer replaces automáticos, e sim
> alterar caso a caso, mesmo que a mesma palavra se repetisse inúmeras vezes.
>
> Assim que possível irei publicar o script no fórum do projeto e avisarei por
> aqui.
>
> Att,
>
> Marcelo Pereira
>
>
>
> Em 3 de fevereiro de 2014 15:39, Fernando Trebien
> <fernando.trebien em gmail.com> escreveu:
>
>> Eu também não faria essa correção automática. Você pode estar
>> corrigindo 10% de erros e introduzindo outros 10% de erros novos.
>>
>> Processos automáticos precisam ser muito bem pensados, testados,
>> avaliados com grandes conjuntos de dados E (principalmente) combinados
>> com a comunidade antes de se iniciar o processo. O melhor também seria
>> descrever o processo no wiki, de modo similar ao que se faz com as
>> importações.
>>
>> Sua iniciativa é louvável, Marcelo, mas se por acaso algo der errado
>> nas suas correções (algo que poderia não dar caso tivesse contatado a
>> gente), desfazer provavelmente atrapalharia o trabalho de muitas
>> pessoas de uma só vez.
>>
>> 2014-02-03 Gerald Weber <gweberbh em gmail.com>:
>> >>>
>> >>> Coloque um source:spelling=
>> >>>
>> >>> assim na revisão sabemos o que houve
>> >>>
>> >>>
>> >>>
>> >>
>> >>
>> >> Isso é necessário mesmo ? No próprio changeset isso já está registrado.
>> >
>> >
>> > Eu acho necessário sim. Você está dizendo diretamente que aquele nome
>> > foi
>> > alterado baseado em grafia de dicionário.
>> >
>> > Sugiro colocar
>> > source:spelling:pt=dictionary
>> > quando for trocar para a grafia original
>> >
>> > e
>> >
>> > source:spelling:pt=survey
>> >
>> > sempre que se verificou inequívocamente que a grafia da rua diverge do
>> > normal. Aqui o pt é de protuguês já que uma localidade pode ter nomes em
>> > outras línguas (por exemplo Berlin e Berlim, München e Munique).
>> >
>> > Já pesquisar pelo changeset é mais complicado e nem todo usuário sabe
>> > que
>> > isto existe. Quer dizer, você tem que primeiro desconfiar que houve uma
>> > alteração e olhar todos os changesets um por um no JOSM. Que eu saiba
>> > quem
>> > usa o iD ficaria sem saber mesmo.
>> >
>> >
>> >>>
>> >>> 1) como "proteger" uma grafia que de fato diverge do usual?
>> >>> 2) o que deve valer? o que está na placa ou o que está no dicionário?
>> >>>
>> >>   Se a grafia diverge do usual por um fator da cultura local, não acho
>> >> que
>> >> tenha problemas em mante-la.
>> >
>> >
>> > A questão é: como sabemos que a grafia era de fato esta e que não foi um
>> > erro do mapeador? Sem verificar no local? Eu não tenho uma solução para
>> > este
>> > problema.
>> >
>> > E como fazemos para avisar que a grafia da rua está correta e que não
>> > deve
>> > ser alterada? Acho que
>> > source:spelling:pt=survey
>> > pode ser a solução
>> >
>> >>
>> >>
>> >>    Para mim isso encobertaria os muitos erros que se veem no mapa,
>> >> podendo
>> >> até afastar os possíveis usuários dele.
>> >>
>> >
>> > Sim e não. O correto seria verificar no local, por exemplo olhando a
>> > placa
>> > da rua, e ver que está lá de fato.
>> >
>> > Exemplo: aqui em BH temos a "Rua Passa Tempo", no dicionário você só vai
>> > achar "passatempo", mas o nome da rua é grafado separado mesmo (conferi
>> > pessoalmente e tenho um amigo que mora nesta rua que confirmou). E note
>> > que
>> > na rua há placas com as duas grafias!
>> >
>> > Eu já tomei tanta supresa com nomes estranhos que eu pensaria duas vezes
>> > antes de sair corrigindo só me baseando em dicionário, sem verificar com
>> > cuidado.
>> >
>> > Talvez em casos de dúvidas eu acrescentaria um
>> > fixme=verificar grafia da rua pessoalmente no local ou em documentos
>> > oficiais
>> > ao invés de alterar só baseado no dicionário.
>> >
>> > abraço
>> >
>> > Gerald
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> > _______________________________________________
>> > Talk-br mailing list
>> > Talk-br em openstreetmap.org
>> > https://lists.openstreetmap.org/listinfo/talk-br
>> >
>>
>>
>>
>> --
>> Fernando Trebien
>> +55 (51) 9962-5409
>>
>> "The speed of computer chips doubles every 18 months." (Moore's law)
>> "The speed of software halves every 18 months." (Gates' law)
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>
>
>
>
> --
>
> ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>    É mentira da Ivete, não é meu esse caniveeeeeete...
> "Halley, Luiz" - Poeta, Cantor, Compsitor
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>



-- 
Fernando Trebien
+55 (51) 9962-5409

"The speed of computer chips doubles every 18 months." (Moore's law)
"The speed of software halves every 18 months." (Gates' law)



Mais detalhes sobre a lista de discussão Talk-br