[Talk-br] spell check

Paulo Carvalho paulo.r.m.carvalho em gmail.com
Terça Fevereiro 4 21:16:59 UTC 2014


De repente os erros não são tantos assim, mesmo numa área tão grande.  Acho
que dá para corrigir manualmente uns 200 erros acusados pelo script bem
rápido. 200 erros é muita coisa, certamente eles estarão espalhados numa
área tão grande.


Em 4 de fevereiro de 2014 14:17, Fernando Trebien <
fernando.trebien em gmail.com> escreveu:

> Hm ok. Mas como você está conseguindo fazer isso manualmente numa
> escala tão grande e tão rápido?
>
> 2014-02-03 Marcelo Pereira <pereiraholder em gmail.com>:
> > Fernando, pessoal,
> >
> > Como citei em mensagem anterior neste post, não estou fazendo spell check
> > automático, a parte automatizada do script que uso é para atualizar e
> > extrair do mapa o extract que preciso para trabalhar, e no fim fazer o
> > upload do resultado.
> >
> > Uso o aspell para o spell check, e toda alteração que faço é manual, nem
> o
> > "replace all" eu rodo.
> >
> > Além disso não estou focado em correções de nomes próprios, e sim em
> outros
> > erros encontrados como grafias errôneas de nomes comuns, como Aveinda,
> Rau,
> > e por aí vai.
> >
> > Os exemplos que foram descritos aqui, como o caso do JK, foi só um
> exemplo,
> > e pelo que vi, acertado, pois alguem confirmou que o nome estava mesmo
> > errado na área de conhecimento dele.
> >
> >
> > Gerald,
> >
> > Ainda não estou convencido de que haja a necessidade de se inserir uma
> tag
> > em cada nome corrigido, e explico isso.
> >
> > Quando se abre o iD, ou mesmo o JOSM e se atualiza o nome de uma rua,
> não há
> > a necessidade de se incluir esse ou outro tipo de tag, se assim fosse, o
> > trabalho de contribuição seria muito penoso, e lento, e ainda por cima
> > afastaria os contribuintes, pelo custo-benefício das contribuições.
> >
> > Assim, como entendo estar fazendo a mesma coisa, com a diferença única de
> > trabalhar com lotes de dados, considero que a descrição do changeset seja
> > suficiente.
> >
> > Outra coisa que parece ter ficado mal explicado por mim, eu não estou me
> > preocupando em normalizar a grafia dos nomes usados nas vias, e sim em
> > identificar erros nos nomes digitados.
> >
> > Se for necessário adicionar essas tag em cada elemento, o trabalho
> adicional
> > que terei ao acrescentar isso ao script tornará o trabalho dispendioso
> para
> > mim e assim o abandonarei.
> >
> > Me interesso em continuar a fazer isso no OSM, pois assim o fiz nos
> mapas do
> > Tracksource, e considero isso uma boa forma de contribuir para o projeto,
> > pois já estou acostumado com ele, apesar de chato e repetitivo.
> >
> > Porém não quero que ele seja motivo para problemas ou que eu tenha que
> ficar
> > gastando mais tempo explicando do que trabalhando no mapa.
> >
> > O processo que uso neste script é quase igual ao usado nos scripts
> > anteriores que usei para substituir as abreviações pelos seus extensos,
> por
> > exemplo, Dr. Prof, Av. Trav, e por aí vai. Nesse caso o scripts foram
> > "publicados" no fórum.
> >
> > Como já disse, mesmo com todo cuidado, não há como garantir que não haja
> > falsos positivos, mas mesmo que o processo fosse feito pelo iD, também
> não
> > haveria essa garantia.
> >
> > Volto a registrar que se alguem encontrar algum erro nos meus changesets
> que
> > os inviabilize, podem revertê-los sem dó, não tenho problemas com
> relação a
> > isso.
> >
> > Entendo que pela natureza aberta da edição dos dados do OSM, é
> necessário um
> > cuidado redobrado quando da alteração dos dados, e é por isso que eu
> mesmo
> > me cerquei de certas garantias, como NÃO fazer replaces automáticos, e
> sim
> > alterar caso a caso, mesmo que a mesma palavra se repetisse inúmeras
> vezes.
> >
> > Assim que possível irei publicar o script no fórum do projeto e avisarei
> por
> > aqui.
> >
> > Att,
> >
> > Marcelo Pereira
> >
> >
> >
> > Em 3 de fevereiro de 2014 15:39, Fernando Trebien
> > <fernando.trebien em gmail.com> escreveu:
> >
> >> Eu também não faria essa correção automática. Você pode estar
> >> corrigindo 10% de erros e introduzindo outros 10% de erros novos.
> >>
> >> Processos automáticos precisam ser muito bem pensados, testados,
> >> avaliados com grandes conjuntos de dados E (principalmente) combinados
> >> com a comunidade antes de se iniciar o processo. O melhor também seria
> >> descrever o processo no wiki, de modo similar ao que se faz com as
> >> importações.
> >>
> >> Sua iniciativa é louvável, Marcelo, mas se por acaso algo der errado
> >> nas suas correções (algo que poderia não dar caso tivesse contatado a
> >> gente), desfazer provavelmente atrapalharia o trabalho de muitas
> >> pessoas de uma só vez.
> >>
> >> 2014-02-03 Gerald Weber <gweberbh em gmail.com>:
> >> >>>
> >> >>> Coloque um source:spelling=
> >> >>>
> >> >>> assim na revisão sabemos o que houve
> >> >>>
> >> >>>
> >> >>>
> >> >>
> >> >>
> >> >> Isso é necessário mesmo ? No próprio changeset isso já está
> registrado.
> >> >
> >> >
> >> > Eu acho necessário sim. Você está dizendo diretamente que aquele nome
> >> > foi
> >> > alterado baseado em grafia de dicionário.
> >> >
> >> > Sugiro colocar
> >> > source:spelling:pt=dictionary
> >> > quando for trocar para a grafia original
> >> >
> >> > e
> >> >
> >> > source:spelling:pt=survey
> >> >
> >> > sempre que se verificou inequívocamente que a grafia da rua diverge do
> >> > normal. Aqui o pt é de protuguês já que uma localidade pode ter nomes
> em
> >> > outras línguas (por exemplo Berlin e Berlim, München e Munique).
> >> >
> >> > Já pesquisar pelo changeset é mais complicado e nem todo usuário sabe
> >> > que
> >> > isto existe. Quer dizer, você tem que primeiro desconfiar que houve
> uma
> >> > alteração e olhar todos os changesets um por um no JOSM. Que eu saiba
> >> > quem
> >> > usa o iD ficaria sem saber mesmo.
> >> >
> >> >
> >> >>>
> >> >>> 1) como "proteger" uma grafia que de fato diverge do usual?
> >> >>> 2) o que deve valer? o que está na placa ou o que está no
> dicionário?
> >> >>>
> >> >>   Se a grafia diverge do usual por um fator da cultura local, não
> acho
> >> >> que
> >> >> tenha problemas em mante-la.
> >> >
> >> >
> >> > A questão é: como sabemos que a grafia era de fato esta e que não foi
> um
> >> > erro do mapeador? Sem verificar no local? Eu não tenho uma solução
> para
> >> > este
> >> > problema.
> >> >
> >> > E como fazemos para avisar que a grafia da rua está correta e que não
> >> > deve
> >> > ser alterada? Acho que
> >> > source:spelling:pt=survey
> >> > pode ser a solução
> >> >
> >> >>
> >> >>
> >> >>    Para mim isso encobertaria os muitos erros que se veem no mapa,
> >> >> podendo
> >> >> até afastar os possíveis usuários dele.
> >> >>
> >> >
> >> > Sim e não. O correto seria verificar no local, por exemplo olhando a
> >> > placa
> >> > da rua, e ver que está lá de fato.
> >> >
> >> > Exemplo: aqui em BH temos a "Rua Passa Tempo", no dicionário você só
> vai
> >> > achar "passatempo", mas o nome da rua é grafado separado mesmo
> (conferi
> >> > pessoalmente e tenho um amigo que mora nesta rua que confirmou). E
> note
> >> > que
> >> > na rua há placas com as duas grafias!
> >> >
> >> > Eu já tomei tanta supresa com nomes estranhos que eu pensaria duas
> vezes
> >> > antes de sair corrigindo só me baseando em dicionário, sem verificar
> com
> >> > cuidado.
> >> >
> >> > Talvez em casos de dúvidas eu acrescentaria um
> >> > fixme=verificar grafia da rua pessoalmente no local ou em documentos
> >> > oficiais
> >> > ao invés de alterar só baseado no dicionário.
> >> >
> >> > abraço
> >> >
> >> > Gerald
> >> >
> >> >
> >> >
> >> >
> >> >
> >> >
> >> >
> >> > _______________________________________________
> >> > Talk-br mailing list
> >> > Talk-br em openstreetmap.org
> >> > https://lists.openstreetmap.org/listinfo/talk-br
> >> >
> >>
> >>
> >>
> >> --
> >> Fernando Trebien
> >> +55 (51) 9962-5409
> >>
> >> "The speed of computer chips doubles every 18 months." (Moore's law)
> >> "The speed of software halves every 18 months." (Gates' law)
> >>
> >> _______________________________________________
> >> Talk-br mailing list
> >> Talk-br em openstreetmap.org
> >> https://lists.openstreetmap.org/listinfo/talk-br
> >
> >
> >
> >
> > --
> >
> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
> >    É mentira da Ivete, não é meu esse caniveeeeeete...
> > "Halley, Luiz" - Poeta, Cantor, Compsitor
> >
> > _______________________________________________
> > Talk-br mailing list
> > Talk-br em openstreetmap.org
> > https://lists.openstreetmap.org/listinfo/talk-br
> >
>
>
>
> --
> Fernando Trebien
> +55 (51) 9962-5409
>
> "The speed of computer chips doubles every 18 months." (Moore's law)
> "The speed of software halves every 18 months." (Gates' law)
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.openstreetmap.org/pipermail/talk-br/attachments/20140204/26325d06/attachment-0001.html>


Mais detalhes sobre a lista de discussão Talk-br