Search results

Filters

  • Journals
  • Date

Search results

Number of results: 2
items per page: 25 50 75
Sort by:
Download PDF Download RIS Download Bibtex

Abstract

Jedna z głównych decyzji przy ręcznym kodowaniu danych tekstowych dotyczy tego, czy kodowanie ma być weryfikowane. W przypadku modeli nadzorowanych prowadzi to do istotnego dylematu: czy lepszym rozwiązaniem jest dostarczenie modelowi dużej liczby przypadków, na których będzie się uczyć kosztem weryfikacji poprawności danych, czy też zakodowanie każdego przypadku n-razy, co pozwoli porównać kody i sprawdzić ich poprawność, ale jednocześnie n-krotnie zmniejszy zbiór danych treningowych. Taka decyzja może zaważyć nie tylko na ostatecznych wynikach klasyfikatora. Z punktu widzenia badaczy jest istotna również dlatego, że – realistycznie zakładając, że badania mają ograniczone źródło finansowania – nie można jej cofnąć. Wykorzystując 100 tys. unikatowych i ręcznie zakodowanych tweetów przeprowadzono symulacje wyników klasyfikatora w zależności od kontrolowanego odsetka błędnie zakodowanych dokumentów. Na podstawie danych przedstawiono rekomendacje.
Go to article

Bibliography

1. Ajdukiewicz, Kazimierz. 1965. Logika pragmatyczna. Warszawa: Państwowe Wydawnictwo Naukowe.
2. Anon. 2021. „FastText”. Facebook Research. Pobrano 17 marzec 2021 (https://research.fb.com/downloads/fasttext/).
3. Bai, Qiyu, Qi Dan, Zhe Mu, Maokun Yang. 2019. A Systematic Review of Emoji: Current Research and Future Perspectives. Frontiers in Psychology. DOI: 10.3389/fpsyg.2019.02221.
4. Bail, Christopher A. 2014. The Cultural Environment: Measuring Culture with Big data. Theory and Society, 43, 3: 465–82. DOI: 10.1007/s11186-014-9216-5.
5. Bakliwal, Akshat, Jennifer Foster, Jennifer van der Puil, Ron O’Brien, Lamia Tounsi, Mark Hughes. 2013. Sentiment Analysis of Political Tweets: Towards an Accurate Classifier. In: Proceedings of the NAACL Workshop on Language Analysis in Social Media. Atlanta, GA.: Association for Computational Linguistics.
6. Barberá, Pablo, Amber E. Boydstun, Suzanna Linn, Ryan McMahon, Jonathan Nagler. 2021. Automated Text Classification of News Articles: A Practical Guide. Political Analysis, 29, 1:19–42. DOI: 10.1017/pan.2020.8.
7. Batorski, Dominik, Marta Olcoń-Kubicka. 2006. Prowadzenie badań przez internet – podstawowe zagadnienia metodologiczne. Studia Socjologiczne, 182, 3: 99–132.
8. Batorski, Dominik, Krzysztof Olechnicki. 2007. Wprowadzenie do socjologii internetu. Studia Socjologiczne, 186, 3: 5–14.
9. Boudon, Raymond. 1997. The Art of Self-Persuasion: The Social Explanation of False Beliefs. Cambridge, England; Malden, Mass.: Polity.
10. Brants, Wesley, Bonita Sharif, Alexander Serebrenik. 2019. Assessing the Meaning of Emojis for Emotional Awareness – A Pilot Study. s. 419–23. In: Companion Proceedings of The 2019 World Wide Web Conference, WWW ’19. New York, NY, USA: Association for Computing Machinery.
11. Cha, Meeyoung, Hamed Haddadi, Fabrício Benevenuto, Krishna P. Gummadi. 2010. Measuring user influence in Twitter: The million follower fallacy. In: ICWSM ’10: Proceedings of international AAAI Conference on Weblogs and Social.
12. Chen, Yukun, Subramani Mani, Hua Xu. 2012. Applying Active Learning to Assertion Classification of Concepts in Clinical Text. Journal of Biomedical Informatics, 45, 2: 265–72. DOI: 10.1016/j.jbi.2011.11.003.
13. Denny, Matthew J., Arthur Spirling. 2018. Text Preprocessing For Unsupervised Learning: Why It Matters, When It Misleads, And What To Do About It. Political Analysis, 26, 2: 168–89. DOI: 10.1017/pan.2017.44.
14. Di Franco, Giovanni, Michele Santurro. 2020. Machine Learning, Artificial Neural Networks and Social Research. Quality & Quantity. DOI: 10.1007/s11135-02001037-y.
15. DiMaggio, Paul. 2015. Adapting Computational Text Analysis to Social Science (and Vice Versa). Big Data & Society, 2, 2. DOI: 10.1177/2053951715602908.
16. Drus, Zulfadzli, Haliyana Khalid. 2019. Sentiment Analysis in Social Media and Its Application: Systematic Literature Review. Procedia Computer Science, 161: 707–14. DOI: 10.1016/j.procs.2019.11.174.
17. Goldenstein, Jan, Philipp Poschmann. 2019. A Quest for Transparent and Reproducible Text-Mining Methodologies in Computational Social Science. Sociological Methodology, 49, 1: 144–51. DOI: 10.1177/0081175019867855.
18. Grimmer, Justin, Brandon M. Stewart. 2013. Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21, 3: 267–97. DOI: 10.1093/pan/mps028.
19. HaCohen-Kerner, Yaakov, Daniel Miller, Yair Yigal. 2020. The Influence of Preprocessing on Text Classification Using a Bag-of-Words Representation. PLOS ONE, 15, 5: e0232525. DOI: 10.1371/journal.pone.0232525.
20. Haddi, Emma, Xiaohui Liu, Yong Shi. 2013. The Role of Text Pre-Processing in Sentiment Analysis. Procedia Computer Science, 17: 26–32. doi: 10.1016/j.procs.2013.05.005.
21. Hand, David J. 2006. Classifier Technology and the Illusion of Progress. Statistical Science, 21, 1: 1–14. DOI: 10.1214/088342306000000060.
22. He, Zhoushanyue, Matthias Schonlau. 2020a. Automatic Coding of Open-Ended Questions into Multiple Classes: Whether and How to Use Double Coded Data. Survey Research Methods, 14, 3: 267–87. DOI: 10.18148/srm/2020.v14i3.7639.
23. He, Zhoushanyue, Matthias Schonlau. 2020b. Automatic Coding of Text Answers to Open-Ended Questions: Should You Double Code the Training Data? Social Science Computer Review, 38, 6: 754–65. DOI: 10.1177/0894439319846622.
24. Hopkins, Daniel J., Gary King. 2010. A Method of Automated Nonparametric Content Analysis for Social Science. American Journal of Political Science, 54, 1: 229–47. DOI: 10.1111/j.1540-5907.2009.00428.x.
25. Ignatow, Gabe. 2016. Theoretical Foundations for Digital Text Analysis. Journal for the Theory of Social Behaviour, 46, 1: 104–20. DOI: 10.1111/jtsb.12086.
26. Jemielniak, Dariusz. 2018. Socjologia 2.0: o potrzebie łączenia Big Data z etnografią cyfrową, wyzwaniach jakościowej socjologii cyfrowej i systematyzacji pojęć. Studia Socjologiczne, 242, 2: 7–29. DOI: 10.24425/122461.
27. Jemielniak, Dariusz. 2019. Socjologia internetu. Warszawa: Wydawnictwo Naukowe Scholar.
28. Jordan, Michael, Tom Mitchell. 2015. Machine Learning: Trends, Perspectives, and Prospects. Science, 349, 6245: 255–60. DOI: 10.1126/science.aaa8415.
29. Joseph, Kenneth, Sarah Shugars, Ryan Gallagher, Jon Green, Alexi Quintana Mathé, Zijian An, David Lazer. 2021. (Mis)alignment Between Stance Expressed in Social Media Data and Public Opinion Surveys. arXiv:2109.01762 [cs].
30. Joulin, Armand, Edouard Grave, Piotr Bojanowski, Tomas Mikolov. 2016. Bag of Tricks for Efficient Text Classification. arXiv:1607.01759 [cs].
31. Krippendorff, Klaus H. 2003. Content Analysis: An Introduction to Its Methodology. Thousand Oaks, Calif: Sage Publications, Inc.
32. Lazer, David, Alex (Sandy) Pentland, Lada Adamic, Sinan Aral, Albert Laszlo Barabasi, Devon Brewer, Nicholas Christakis, Noshir Contractor, James Fowler, Myron Gutmann, Tony Jebara, Gary King, Michael Macy, Deb Roy, Marshall Van Alstyne. 2009. Life in the network: the coming age of computational social science. Science, 323, 5915: 721–23. DOI: 10.1126/science.1167742.
33. Lin, Chenghua, Yulan He. 2009. Joint sentiment/topic model for sentiment analysis. In: Proceedings of the 18th ACM conference on Information and knowledge management, CIKM ’09. New York, NY, USA: Association for Computing Machinery, 375–384.
34. Marciszewski, Witold. 1972. Podstawy logicznej teorii przekonań. Warszawa: Państwowe Wydawnictwo Naukowe.
35. Miller, Blake, Fridolin Linder, Walter R. Mebane. 2020. Active Learning Approaches for Labeling Text: Review and Assessment of the Performance of Active Learning Approaches. Political Analysis, 28, 4: 532–51. DOI: 10.1017/pan.2020.4.
36. Mohammad, Saif M., Parinaz Sobhani, Svetlana Kiritchenko. 2016. Stance and Sentiment in Tweets. arXiv:1605.01655 [cs].
37. Monroe, Burt L. 2019. The Meanings of “Meaning in Social Scientific Text Analysis. Sociological Methodology, 49, 1: 132–39. DOI: 10.1177/0081175019865231.
38. Mozetič, Igor, Miha Grčar, Jasmina Smailović. 2016. Multilingual Twitter Sentiment Classification: The Role of Human Annotators. PLOS ONE 11, 5:e0155036. DOI: 10.1371/journal.pone.0155036.
39. Murthy, Dhiraj, Sawyer A. Bowman. 2014. Big Data Solutions on a Small Scale: Evaluating Accessible High-Performance Computing for Social Research: Big Data & Society. DOI: 10.1177/2053951714559105.
40. Nelson, Laura K. 2019. To Measure Meaning in Big Data, Don’t Give Me a Map, Give Me Transparency and Reproducibility. Sociological Methodology, 49, 1: 139–43. DOI: 10.1177/0081175019863783.
41. Rodak, Olga. 2017. Twitter jako przedmiot badań socjologicznych i źródło danych społecznych: perspektywa konstruktywistyczna. Studia Socjologiczne, 226, 3: 209–36.
42. Salganik, Matthew J. 2017. Bit by Bit: Social Research in the Digital Age. Illustrated edition. Princeton: Princeton University Press.
43. Sobhani, Parinaz, Diana Inkpen, Xiaodan Zhu. 2019. Exploring Deep Neural Networks for Multitarget Stance Detection. Computational Intelligence, 35, 1: 82–97. DOI: 10.1111/coin.12189.
44. Subedi, Nishan. 2018. FastText: Under the Hood. Medium. Pobrano 3 grudzień 2021 (https://towardsdatascience.com/fasttext-under-the-hood-11efc57b2b3).
45. Tharwat, Alaa. 2020. Classification assessment methods. Applied Computing and Informatics ahead-of-print(ahead-of-print). DOI: 10.1016/j.aci.2018.08.003.
46. Tomanek, Krzysztof. 2017. Metodyka dla analizy treści w projektach stosujących techniki text mining i rozwiązania CAQDAS piątej generacji. Przegląd Socjologii Jakościowej, 13, 2: 128–43.
47. Turner, Anna, Marcin W. Zieliński, Kazimierz M. Słomczyński. 2018. Google Big Data: charakterystyka i zastosowanie w naukach społecznych. Studia Socjologiczne, 231, 4: 49–71. DOI: 10.24425/122482.
48. Watts, Duncan J., Peter Sheridan Dodds. 2007. Influentials, Networks, and Public Opinion Formation. Journal of Consumer Research, 34, 4: 441–58. DOI: 10.1086/518527.
49. Wiedemann, Gregor. 2019. Proportional Classification Revisited: Automatic Content Analysis of Political Manifestos Using Active Learning. Social Science Computer Review, 37, 2: 135–59. DOI: 10.1177/0894439318758389.
50. Ziółkowski, Marek. 1989. Wiedza, jednostka, społeczeństwo: zarys koncepcji socjologii wiedzy. Warszawa: Państwowe Wydawnictwo Naukowe.
51. Żulicki, Remigiusz. 2017. Potencjał Big Data w badaniach społecznych. Studia Socjologiczne, 226, 3: 175–207.

Go to article

Authors and Affiliations

Paweł Matuszewski
1
ORCID: ORCID

  1. Collegium Civitas

This page uses 'cookies'. Learn more