[Talk-br] spell check

Marcelo Pereira pereiraholder em gmail.com
Terça Fevereiro 4 19:17:42 UTC 2014


Fernando,

Como disse aqui ontem, eu postei no fórum o script e a descrição do
processo.

Só faltou o link, taí :

http://goo.gl/YGF0XG

Nada além disso.

Marcelo Pereira


Em 4 de fevereiro de 2014 16:08, Arlindo Pereira <
openstreetmap em arlindopereira.com> escreveu:

> Imagino que ele esteja corrigindo esses nomes possivelmente por ordem de
> ID - que denota a ordem temporal em que foram mapeadas -, ou por ordem
> alfabética, de forma que os itens alterados não necessariamente são
> próximos.
>
>
> []s
> Arlindo
>
> 2014-02-04 Fernando Trebien <fernando.trebien em gmail.com>:
>
> A área que o seu spell check cobre é muito grande:
>> http://www.openstreetmap.org/user/TrevorInserts/history#map
>>
>> Eu acho pouco provável que você tenha revisado manualmente todos os
>> erros de português indicados pelo aspell nessas áreas todas. Se eu
>> estiver enganado, gostaria de conhecer o seu método.
>>
>> 2014-02-04 Marcelo Pereira <pereiraholder em gmail.com>:
>> > Fernando,
>> >
>> > Não entendi a pergunta.
>> >
>> > Marcelo Pereira
>> >
>> >
>> > Em 4 de fevereiro de 2014 13:17, Fernando Trebien
>> > <fernando.trebien em gmail.com> escreveu:
>> >
>> >> Hm ok. Mas como você está conseguindo fazer isso manualmente numa
>> >> escala tão grande e tão rápido?
>> >>
>> >> 2014-02-03 Marcelo Pereira <pereiraholder em gmail.com>:
>> >> > Fernando, pessoal,
>> >> >
>> >> > Como citei em mensagem anterior neste post, não estou fazendo spell
>> >> > check
>> >> > automático, a parte automatizada do script que uso é para atualizar e
>> >> > extrair do mapa o extract que preciso para trabalhar, e no fim fazer
>> o
>> >> > upload do resultado.
>> >> >
>> >> > Uso o aspell para o spell check, e toda alteração que faço é manual,
>> nem
>> >> > o
>> >> > "replace all" eu rodo.
>> >> >
>> >> > Além disso não estou focado em correções de nomes próprios, e sim em
>> >> > outros
>> >> > erros encontrados como grafias errôneas de nomes comuns, como
>> Aveinda,
>> >> > Rau,
>> >> > e por aí vai.
>> >> >
>> >> > Os exemplos que foram descritos aqui, como o caso do JK, foi só um
>> >> > exemplo,
>> >> > e pelo que vi, acertado, pois alguem confirmou que o nome estava
>> mesmo
>> >> > errado na área de conhecimento dele.
>> >> >
>> >> >
>> >> > Gerald,
>> >> >
>> >> > Ainda não estou convencido de que haja a necessidade de se inserir
>> uma
>> >> > tag
>> >> > em cada nome corrigido, e explico isso.
>> >> >
>> >> > Quando se abre o iD, ou mesmo o JOSM e se atualiza o nome de uma rua,
>> >> > não há
>> >> > a necessidade de se incluir esse ou outro tipo de tag, se assim
>> fosse, o
>> >> > trabalho de contribuição seria muito penoso, e lento, e ainda por
>> cima
>> >> > afastaria os contribuintes, pelo custo-benefício das contribuições.
>> >> >
>> >> > Assim, como entendo estar fazendo a mesma coisa, com a diferença
>> única
>> >> > de
>> >> > trabalhar com lotes de dados, considero que a descrição do changeset
>> >> > seja
>> >> > suficiente.
>> >> >
>> >> > Outra coisa que parece ter ficado mal explicado por mim, eu não
>> estou me
>> >> > preocupando em normalizar a grafia dos nomes usados nas vias, e sim
>> em
>> >> > identificar erros nos nomes digitados.
>> >> >
>> >> > Se for necessário adicionar essas tag em cada elemento, o trabalho
>> >> > adicional
>> >> > que terei ao acrescentar isso ao script tornará o trabalho
>> dispendioso
>> >> > para
>> >> > mim e assim o abandonarei.
>> >> >
>> >> > Me interesso em continuar a fazer isso no OSM, pois assim o fiz nos
>> >> > mapas do
>> >> > Tracksource, e considero isso uma boa forma de contribuir para o
>> >> > projeto,
>> >> > pois já estou acostumado com ele, apesar de chato e repetitivo.
>> >> >
>> >> > Porém não quero que ele seja motivo para problemas ou que eu tenha
>> que
>> >> > ficar
>> >> > gastando mais tempo explicando do que trabalhando no mapa.
>> >> >
>> >> > O processo que uso neste script é quase igual ao usado nos scripts
>> >> > anteriores que usei para substituir as abreviações pelos seus
>> extensos,
>> >> > por
>> >> > exemplo, Dr. Prof, Av. Trav, e por aí vai. Nesse caso o scripts foram
>> >> > "publicados" no fórum.
>> >> >
>> >> > Como já disse, mesmo com todo cuidado, não há como garantir que não
>> haja
>> >> > falsos positivos, mas mesmo que o processo fosse feito pelo iD,
>> também
>> >> > não
>> >> > haveria essa garantia.
>> >> >
>> >> > Volto a registrar que se alguem encontrar algum erro nos meus
>> changesets
>> >> > que
>> >> > os inviabilize, podem revertê-los sem dó, não tenho problemas com
>> >> > relação a
>> >> > isso.
>> >> >
>> >> > Entendo que pela natureza aberta da edição dos dados do OSM, é
>> >> > necessário um
>> >> > cuidado redobrado quando da alteração dos dados, e é por isso que eu
>> >> > mesmo
>> >> > me cerquei de certas garantias, como NÃO fazer replaces automáticos,
>> e
>> >> > sim
>> >> > alterar caso a caso, mesmo que a mesma palavra se repetisse inúmeras
>> >> > vezes.
>> >> >
>> >> > Assim que possível irei publicar o script no fórum do projeto e
>> avisarei
>> >> > por
>> >> > aqui.
>> >> >
>> >> > Att,
>> >> >
>> >> > Marcelo Pereira
>> >> >
>> >> >
>> >> >
>> >> > Em 3 de fevereiro de 2014 15:39, Fernando Trebien
>> >> > <fernando.trebien em gmail.com> escreveu:
>> >> >
>> >> >> Eu também não faria essa correção automática. Você pode estar
>> >> >> corrigindo 10% de erros e introduzindo outros 10% de erros novos.
>> >> >>
>> >> >> Processos automáticos precisam ser muito bem pensados, testados,
>> >> >> avaliados com grandes conjuntos de dados E (principalmente)
>> combinados
>> >> >> com a comunidade antes de se iniciar o processo. O melhor também
>> seria
>> >> >> descrever o processo no wiki, de modo similar ao que se faz com as
>> >> >> importações.
>> >> >>
>> >> >> Sua iniciativa é louvável, Marcelo, mas se por acaso algo der errado
>> >> >> nas suas correções (algo que poderia não dar caso tivesse contatado
>> a
>> >> >> gente), desfazer provavelmente atrapalharia o trabalho de muitas
>> >> >> pessoas de uma só vez.
>> >> >>
>> >> >> 2014-02-03 Gerald Weber <gweberbh em gmail.com>:
>> >> >> >>>
>> >> >> >>> Coloque um source:spelling=
>> >> >> >>>
>> >> >> >>> assim na revisão sabemos o que houve
>> >> >> >>>
>> >> >> >>>
>> >> >> >>>
>> >> >> >>
>> >> >> >>
>> >> >> >> Isso é necessário mesmo ? No próprio changeset isso já está
>> >> >> >> registrado.
>> >> >> >
>> >> >> >
>> >> >> > Eu acho necessário sim. Você está dizendo diretamente que aquele
>> nome
>> >> >> > foi
>> >> >> > alterado baseado em grafia de dicionário.
>> >> >> >
>> >> >> > Sugiro colocar
>> >> >> > source:spelling:pt=dictionary
>> >> >> > quando for trocar para a grafia original
>> >> >> >
>> >> >> > e
>> >> >> >
>> >> >> > source:spelling:pt=survey
>> >> >> >
>> >> >> > sempre que se verificou inequívocamente que a grafia da rua
>> diverge
>> >> >> > do
>> >> >> > normal. Aqui o pt é de protuguês já que uma localidade pode ter
>> nomes
>> >> >> > em
>> >> >> > outras línguas (por exemplo Berlin e Berlim, München e Munique).
>> >> >> >
>> >> >> > Já pesquisar pelo changeset é mais complicado e nem todo usuário
>> sabe
>> >> >> > que
>> >> >> > isto existe. Quer dizer, você tem que primeiro desconfiar que
>> houve
>> >> >> > uma
>> >> >> > alteração e olhar todos os changesets um por um no JOSM. Que eu
>> saiba
>> >> >> > quem
>> >> >> > usa o iD ficaria sem saber mesmo.
>> >> >> >
>> >> >> >
>> >> >> >>>
>> >> >> >>> 1) como "proteger" uma grafia que de fato diverge do usual?
>> >> >> >>> 2) o que deve valer? o que está na placa ou o que está no
>> >> >> >>> dicionário?
>> >> >> >>>
>> >> >> >>   Se a grafia diverge do usual por um fator da cultura local, não
>> >> >> >> acho
>> >> >> >> que
>> >> >> >> tenha problemas em mante-la.
>> >> >> >
>> >> >> >
>> >> >> > A questão é: como sabemos que a grafia era de fato esta e que não
>> foi
>> >> >> > um
>> >> >> > erro do mapeador? Sem verificar no local? Eu não tenho uma solução
>> >> >> > para
>> >> >> > este
>> >> >> > problema.
>> >> >> >
>> >> >> > E como fazemos para avisar que a grafia da rua está correta e que
>> não
>> >> >> > deve
>> >> >> > ser alterada? Acho que
>> >> >> > source:spelling:pt=survey
>> >> >> > pode ser a solução
>> >> >> >
>> >> >> >>
>> >> >> >>
>> >> >> >>    Para mim isso encobertaria os muitos erros que se veem no
>> mapa,
>> >> >> >> podendo
>> >> >> >> até afastar os possíveis usuários dele.
>> >> >> >>
>> >> >> >
>> >> >> > Sim e não. O correto seria verificar no local, por exemplo
>> olhando a
>> >> >> > placa
>> >> >> > da rua, e ver que está lá de fato.
>> >> >> >
>> >> >> > Exemplo: aqui em BH temos a "Rua Passa Tempo", no dicionário você
>>>> >> >> > vai
>> >> >> > achar "passatempo", mas o nome da rua é grafado separado mesmo
>> >> >> > (conferi
>> >> >> > pessoalmente e tenho um amigo que mora nesta rua que confirmou). E
>> >> >> > note
>> >> >> > que
>> >> >> > na rua há placas com as duas grafias!
>> >> >> >
>> >> >> > Eu já tomei tanta supresa com nomes estranhos que eu pensaria duas
>> >> >> > vezes
>> >> >> > antes de sair corrigindo só me baseando em dicionário, sem
>> verificar
>> >> >> > com
>> >> >> > cuidado.
>> >> >> >
>> >> >> > Talvez em casos de dúvidas eu acrescentaria um
>> >> >> > fixme=verificar grafia da rua pessoalmente no local ou em
>> documentos
>> >> >> > oficiais
>> >> >> > ao invés de alterar só baseado no dicionário.
>> >> >> >
>> >> >> > abraço
>> >> >> >
>> >> >> > Gerald
>> >> >> >
>> >> >> >
>> >> >> >
>> >> >> >
>> >> >> >
>> >> >> >
>> >> >> >
>> >> >> > _______________________________________________
>> >> >> > Talk-br mailing list
>> >> >> > Talk-br em openstreetmap.org
>> >> >> > https://lists.openstreetmap.org/listinfo/talk-br
>> >> >> >
>> >> >>
>> >> >>
>> >> >>
>> >> >> --
>> >> >> Fernando Trebien
>> >> >> +55 (51) 9962-5409
>> >> >>
>> >> >> "The speed of computer chips doubles every 18 months." (Moore's law)
>> >> >> "The speed of software halves every 18 months." (Gates' law)
>> >> >>
>> >> >> _______________________________________________
>> >> >> Talk-br mailing list
>> >> >> Talk-br em openstreetmap.org
>> >> >> https://lists.openstreetmap.org/listinfo/talk-br
>> >> >
>> >> >
>> >> >
>> >> >
>> >> > --
>> >> >
>> >> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>> >> >    É mentira da Ivete, não é meu esse caniveeeeeete...
>> >> > "Halley, Luiz" - Poeta, Cantor, Compsitor
>> >> >
>> >> > _______________________________________________
>> >> > Talk-br mailing list
>> >> > Talk-br em openstreetmap.org
>> >> > https://lists.openstreetmap.org/listinfo/talk-br
>> >> >
>> >>
>> >>
>> >>
>> >> --
>> >> Fernando Trebien
>> >> +55 (51) 9962-5409
>> >>
>> >> "The speed of computer chips doubles every 18 months." (Moore's law)
>> >> "The speed of software halves every 18 months." (Gates' law)
>> >>
>> >> _______________________________________________
>> >> Talk-br mailing list
>> >> Talk-br em openstreetmap.org
>> >> https://lists.openstreetmap.org/listinfo/talk-br
>> >
>> >
>> >
>> >
>> > --
>> >
>> > ... Edileuzaaaa, eu não tem nada a ver com Creuza,
>> >    É mentira da Ivete, não é meu esse caniveeeeeete...
>> > "Halley, Luiz" - Poeta, Cantor, Compsitor
>> >
>> > _______________________________________________
>> > Talk-br mailing list
>> > Talk-br em openstreetmap.org
>> > https://lists.openstreetmap.org/listinfo/talk-br
>> >
>>
>>
>>
>> --
>> Fernando Trebien
>> +55 (51) 9962-5409
>>
>> "The speed of computer chips doubles every 18 months." (Moore's law)
>> "The speed of software halves every 18 months." (Gates' law)
>>
>> _______________________________________________
>> Talk-br mailing list
>> Talk-br em openstreetmap.org
>> https://lists.openstreetmap.org/listinfo/talk-br
>>
>
>
> _______________________________________________
> Talk-br mailing list
> Talk-br em openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-br
>
>


-- 

... Edileuzaaaa, eu não tem nada a ver com Creuza,
   É mentira da Ivete, não é meu esse caniveeeeeete...
"Halley, Luiz" - Poeta, Cantor, Compsitor
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://lists.openstreetmap.org/pipermail/talk-br/attachments/20140204/a79baa05/attachment-0001.html>


Mais detalhes sobre a lista de discussão Talk-br