0% found this document useful (0 votes)

77 views4 pages

BNC64 Search & Compare BNC64 Search & Compare

This workshop discusses statistical analysis methods for sociolinguistic data from large language corpora. It will introduce the BNC64 corpus and associated analysis tool. The workshop aims to demonstrate issues with traditional aggregate statistical approaches and promote alternative methods that account for individual variation. Participants will complete practical exercises analyzing sociolinguistic data using various statistical techniques and exploring hypotheses about linguistic features and gender differences.

Uploaded by

Martin Hope

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

77 views4 pages

BNC64 Search & Compare BNC64 Search & Compare

Uploaded by

Martin Hope

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Statistics in corpus-based sociolinguistics: A practical workshop

Workshop convenor: Vaclav Brezina (Linguistics summer school, Dacice 18th August 2014)

Overview
This workshop discusses different statistical procedures available for analysis of sociolinguistic data in large
language corpora. I will demonstrate that the traditional approach of using aggregated data with the log-
likelihood statistic is in principle unreliable. Instead, the workshop will offer suggestions for alternative
methodologies and statistical procedures, which take into account within group differences and therefore
produce more meaningful results. As part of the workshop, a new research tool BNC64 Search &
Compare will be introduced. BNC64 Search & Compare can carry out detailed analyses based on a socially-
balanced spoken corpus BNC64 (1.5 million words). BNC64 represents the speech of 64 speakers - 32 men
and 32 women - extracted from the British National Corpus (BNC). BNC64 Search and Compare is a web-
based environment that creates simple visualisations, calculates statistics and produces concordances. The
website was created to allow for easy visualisations of complex corpus data and easy testing of a number of
different sociolinguistic hypotheses. The workshop will be structured around a series of practical exercises
guiding the participants through different types of analysis of corpus data and statistical procedures. The
following areas will be covered:

 Sociolinguistic data in language corpora

 Descriptive and inferential statistics
 Individual and social variation
 The null-hypothesis testing paradigm and the "new" statistics

Workshop convenor: Vaclav Brezina (v.brezina@lancaster.ac.uk), ESRC Centre for Corpus Approaches to
Social Science, Lancaster University

Exercises
Task 1: Find the best model for the data. If you were to choose ONE number to describe each of the
following datasets, what would this number be (It doesn’t have to be a number from the dataset)?

Table 1. Three data sets

Data set Model
Data set 1: 10, 10, 10, 10, 10, 10, 10, 10, 10, 10

Data set 2: 10, 11, 8, 9, 10, 11, 12, 9, 10, 10

Data set 3: 10, 11, 8, 9, 100, 11, 12, 9, 10, 10

1
Statistics in corpus-based sociolinguistics: A practical workshop
Workshop convenor: Vaclav Brezina (Linguistics summer school, Dacice 18th August 2014)

Task 2: Use the three data sets from Task 1 and calculate the mean & SD, trimmed mean &
Winsorized SD. Use the online statistics tool to help you with the calculations.
http://corpora.lancs.ac.uk/bnc64/workshop.php

Compare your models from Task 1 with the results obtained in Task 2.

Table 2. Measures of central tendency

Dataset Mean SD 20% trimmed Winsorized SD
mean
Dataset 1

Dataset 2

Dataset 3

Task 3: Compare the use of linguistic variable X in a contingency table (traditional approach)

A) Look at Table 3. It provides data about the frequency of variable X in the Female and the Male
subcorpus: What can you say about the use of variable X in the speech of male and female
speakers?

Table 3. Contingency table based on aggregate data

Female subcorpus Male subcorpus
Occurrences of variable X 140 100
Corpus size (tokens) 5,000 5,000

Based on the contingency table (Table 3) we can conclude that____________________________________

_______________________________________________________________________________________

B) Calculate the log-likelihood score and the p-value using the UCREL LL calculator
(http://ucrel.lancs.ac.uk/llwizard.html). Log likelihood score is: _______________________

The p-value is:____________________

Do the results of the statistical analysis confirm your initial observation?

_______________________________________________________________________________________

2
Statistics in corpus-based sociolinguistics: A practical workshop
Workshop convenor: Vaclav Brezina (Linguistics summer school, Dacice 18th August 2014)

Task 4: Looking inside corpora…

Look at Table 4. It provides data about the distribution of variable X among Female and Male speakers in
the corpus. What can you say about the use of variable X in the speech of male and female speakers?

Table 4. Distribution of linguistic variable X in the speech of individual speakers

Freq. of ling.
Individual speakers variable X Sample size
F1 12 1,000
F2 10 1,000
F3 100 1,000
F4 10 1,000
F5 8 1,000
M1 22 1,000
M2 20 1,000
M3 20 1,000
M4 20 1,000
M5 18 1,000

Based on the distribution table (Table 4) we can conclude that____________________________________

______________________________________________________________________________________

Task 5: Appropriate generalising: Measures of central tendency (mean, 20% trimmed mean), Robust
mean difference & Robust Cohen’s d.

a) Use the data from Table 4. Calculate the mean for the female and for the male group.
b) Calculate 20% trimmed mean by removing the lowest and the highest 20% of the values from the
data set and by calculating the arithmetic average of the remaining values.
c) Calculate the difference between the female and male group using Robust mean difference and
Robust Cohen’s d.

Table 5. Measures of central tendency

Female group Male group Difference between the female
and male group

Mean

20 % trimmed mean

Robust mean
difference, incl. 95% CI

Robust Cohen’s d

3
Statistics in corpus-based sociolinguistics: A practical workshop
Workshop convenor: Vaclav Brezina (Linguistics summer school, Dacice 18th August 2014)

Task 6: Do men swear more than women? Use the BNC64 Search & Compare to test different socio-
linguistic hypotheses about swearing. Pay attention to the different statistical measures and their
interpretation.

Table 6. Swearing and gender: BNC64

Swear word Statistically significant result? Meaningful difference?

Task 7: Find typically male and typically female linguistic features in BNC 64. Use the BNC64 Search &
Compare to test different socio-linguistic hypotheses.

Stat Tutorial R
No ratings yet
Stat Tutorial R
20 pages
How To Do Linguistics With R by Natalia Levshina (2015) - Introduction
No ratings yet
How To Do Linguistics With R by Natalia Levshina (2015) - Introduction
6 pages
Sociolinguistic Generalisations in Large Corporations
No ratings yet
Sociolinguistic Generalisations in Large Corporations
29 pages
Corpus Approaches To Discourse A Critical Review - (Part C Research Design (Avoiding Pitfalls Re-Examining The Foundations... )
No ratings yet
Corpus Approaches To Discourse A Critical Review - (Part C Research Design (Avoiding Pitfalls Re-Examining The Foundations... )
22 pages
Quantitative Linguistics With R
No ratings yet
Quantitative Linguistics With R
29 pages
Widening The Net: Challenges For Gathering Linguistic Data in The Digital Age
No ratings yet
Widening The Net: Challenges For Gathering Linguistic Data in The Digital Age
5 pages
Data Collection in Sociolinguistics Methods and Applications
No ratings yet
Data Collection in Sociolinguistics Methods and Applications
351 pages
Sociolinguistics and Corpus Linguistics 1st Edition Paul Baker Available Instanly
100% (4)
Sociolinguistics and Corpus Linguistics 1st Edition Paul Baker Available Instanly
168 pages
Sociolinguistic Data Analysis Guide
No ratings yet
Sociolinguistic Data Analysis Guide
32 pages
Statisticsin Corpus Linguistics
No ratings yet
Statisticsin Corpus Linguistics
7 pages
Linguistic Learning Practice Portfolio
No ratings yet
Linguistic Learning Practice Portfolio
21 pages
Linguistic Learning Practice Portfolio
No ratings yet
Linguistic Learning Practice Portfolio
28 pages
Rasinger, Sebastian Marc-Quantitative Research in Linguistics - An Introduction-Bloomsbury (2013)
100% (1)
Rasinger, Sebastian Marc-Quantitative Research in Linguistics - An Introduction-Bloomsbury (2013)
305 pages
Preview-9781472566973 A24068576
No ratings yet
Preview-9781472566973 A24068576
31 pages
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Download
100% (9)
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Download
44 pages
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Download
100% (1)
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Download
39 pages
(Textbooks in Language Sciences) Stefanowitsch, Anatol - Corpus Linguistics. A Guide To The Methodology-Language Science Press (2020)
No ratings yet
(Textbooks in Language Sciences) Stefanowitsch, Anatol - Corpus Linguistics. A Guide To The Methodology-Language Science Press (2020)
510 pages
2014 STG CorpAndQuantMeth CompToCogLing
No ratings yet
2014 STG CorpAndQuantMeth CompToCogLing
22 pages
Corpus Linguistics: Anatol Stefanowitsch
100% (1)
Corpus Linguistics: Anatol Stefanowitsch
510 pages
(Ebook) Statistical Methods in Language and Linguistic Research by Pascual Cantos Gomez ISBN 9781845534318, 184553431X PDF Version
No ratings yet
(Ebook) Statistical Methods in Language and Linguistic Research by Pascual Cantos Gomez ISBN 9781845534318, 184553431X PDF Version
86 pages
(Original PDF) Quantitative Corpus Linguistics With R Second Editioninstant Download
100% (3)
(Original PDF) Quantitative Corpus Linguistics With R Second Editioninstant Download
44 pages
Statistical Methods in Language Research (Pascual - Cantos - Gomez)
No ratings yet
Statistical Methods in Language Research (Pascual - Cantos - Gomez)
137 pages
Methods of Data Gathering
No ratings yet
Methods of Data Gathering
34 pages
Butler, Christopher. 1985. Statistics in Linguistics.
86% (7)
Butler, Christopher. 1985. Statistics in Linguistics.
227 pages
BUTLER Statistics in Linguistics
No ratings yet
BUTLER Statistics in Linguistics
227 pages
(Text, Speech and Language Technology 4) Ludovic Lebart, André Salem, Lisette Berry (Auth.) - Exploring Textual Data-Springer Netherlands (1998)
100% (1)
(Text, Speech and Language Technology 4) Ludovic Lebart, André Salem, Lisette Berry (Auth.) - Exploring Textual Data-Springer Netherlands (1998)
254 pages
Butler (1985) Statistics in Linguistics
No ratings yet
Butler (1985) Statistics in Linguistics
225 pages
Corpus BasedSociolinguistics Partington
No ratings yet
Corpus BasedSociolinguistics Partington
7 pages
Bachman Statistical Analysis For Language Assessment-2
100% (6)
Bachman Statistical Analysis For Language Assessment-2
190 pages
Lexicostatistics - Wikipedia
No ratings yet
Lexicostatistics - Wikipedia
20 pages
Corpus Linguistics Slides
No ratings yet
Corpus Linguistics Slides
20 pages
Field Linguistics and Dialectology
100% (1)
Field Linguistics and Dialectology
17 pages
Foundational Quantitative Concepts in Corpus Linguistics
No ratings yet
Foundational Quantitative Concepts in Corpus Linguistics
35 pages
Research
No ratings yet
Research
41 pages
(Ebook) Statistical Methods in Language and Linguistic Research by Pascual Cantos Gomez ISBN 9781845534318, 184553431X Available Any Format
No ratings yet
(Ebook) Statistical Methods in Language and Linguistic Research by Pascual Cantos Gomez ISBN 9781845534318, 184553431X Available Any Format
122 pages
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Instant Download
100% (2)
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Instant Download
49 pages
How To Distinguish Languages and Dialects
No ratings yet
How To Distinguish Languages and Dialects
9 pages
Corpus Linguistics
100% (2)
Corpus Linguistics
472 pages
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Instant Download
100% (4)
(Original PDF) Quantitative Corpus Linguistics With R Second Edition Instant Download
39 pages
лек 3
No ratings yet
лек 3
4 pages
Lecture 1 What Is Statistics
No ratings yet
Lecture 1 What Is Statistics
26 pages
Gilquin Corpora and Experimental Methods - A State-Of-The-Art Review
No ratings yet
Gilquin Corpora and Experimental Methods - A State-Of-The-Art Review
27 pages
Chapter 2 - Part 2 علم اللغة الاجتماعي
No ratings yet
Chapter 2 - Part 2 علم اللغة الاجتماعي
23 pages
HG3051 Lec06 DIY
No ratings yet
HG3051 Lec06 DIY
59 pages
(Georgetown University Round Table on Languages and Linguistics) Jeff Connor-Linton - Measured Language_ Quantitative Approaches to Acquisition, Assessment, And Variation-Georgetown University Press (
No ratings yet
(Georgetown University Round Table on Languages and Linguistics) Jeff Connor-Linton - Measured Language_ Quantitative Approaches to Acquisition, Assessment, And Variation-Georgetown University Press (
257 pages
Statistic
No ratings yet
Statistic
9 pages
Milroy and Gordon Ch. 2
No ratings yet
Milroy and Gordon Ch. 2
23 pages
1 Corpus Linguistics
No ratings yet
1 Corpus Linguistics
38 pages
Angie Ortiz Ass.3
No ratings yet
Angie Ortiz Ass.3
11 pages
Chapter2 Answers
No ratings yet
Chapter2 Answers
6 pages
Séquence 4 NEW PPDDFF
No ratings yet
Séquence 4 NEW PPDDFF
6 pages
Statistical Methods and Linguistics
No ratings yet
Statistical Methods and Linguistics
23 pages
ABNEY 1996 Statistical Methods and Linguistics
No ratings yet
ABNEY 1996 Statistical Methods and Linguistics
23 pages
Topics
No ratings yet
Topics
85 pages
How To Distinguish Languages and Dialects
No ratings yet
How To Distinguish Languages and Dialects
9 pages
Introduction To Corpus Linguistics
No ratings yet
Introduction To Corpus Linguistics
26 pages
Statistical Results - Chelsea Ganan
No ratings yet
Statistical Results - Chelsea Ganan
21 pages
Unit 1 Lesson 5 Language Standardization and Its Implications For Language Education
No ratings yet
Unit 1 Lesson 5 Language Standardization and Its Implications For Language Education
44 pages
Mallinson, Christine Data Collection in Sociolinguistics Taylor
100% (2)
Mallinson, Christine Data Collection in Sociolinguistics Taylor
348 pages
Fofsgccea PDF
No ratings yet
Fofsgccea PDF
55 pages
Ministry of Education, Human Resource Development & Labour: Government of Saint Lucia
No ratings yet
Ministry of Education, Human Resource Development & Labour: Government of Saint Lucia
11 pages
Report On Task-Based Approach TO Language Teaching/Learnin G
No ratings yet
Report On Task-Based Approach TO Language Teaching/Learnin G
9 pages
Gs Past Simple Regular - Exercises 1
0% (3)
Gs Past Simple Regular - Exercises 1
2 pages
Training Course: 2019/2020 CRMEF Rabat Distance Lessons English Department Module: Lesson Planning/Teaching Skills
No ratings yet
Training Course: 2019/2020 CRMEF Rabat Distance Lessons English Department Module: Lesson Planning/Teaching Skills
49 pages
PP Summary 1 - Didactics
100% (1)
PP Summary 1 - Didactics
6 pages
Critical Thinking in The Moroccan Textbooks of English: Ticket To English As A Case Study
No ratings yet
Critical Thinking in The Moroccan Textbooks of English: Ticket To English As A Case Study
1 page
Group: 2 Teacher Trainees: Abdel Hakim EL Rharbaoui, Mounir Brouzi,, Mohamed EL Asri, Noura Atafi
No ratings yet
Group: 2 Teacher Trainees: Abdel Hakim EL Rharbaoui, Mounir Brouzi,, Mohamed EL Asri, Noura Atafi
1 page
Ex
No ratings yet
Ex
1 page
Linguistics in Translation
No ratings yet
Linguistics in Translation
4 pages
What Is Phonology
No ratings yet
What Is Phonology
7 pages
Seven Types of Meaning
100% (1)
Seven Types of Meaning
3 pages
89112103
100% (1)
89112103
14 pages
Swi MT940 and MT950 Statements Customer Service Guide: Haribabu Ramineni Full Description
No ratings yet
Swi MT940 and MT950 Statements Customer Service Guide: Haribabu Ramineni Full Description
15 pages
A Review On Emerging Smart Technological Innovations in Healthcare Sector For Increasing Patient's Medication Adherence
No ratings yet
A Review On Emerging Smart Technological Innovations in Healthcare Sector For Increasing Patient's Medication Adherence
7 pages
Citrix Easycall Gateway Telephony System Integrator'S Guide: For Alcatel Omnipcx Enterprise
No ratings yet
Citrix Easycall Gateway Telephony System Integrator'S Guide: For Alcatel Omnipcx Enterprise
16 pages
Chapter 1 Complex Numbers: Question Bank
No ratings yet
Chapter 1 Complex Numbers: Question Bank
4 pages
Technological University (Meiktila) Department of Electronic Engineering
No ratings yet
Technological University (Meiktila) Department of Electronic Engineering
62 pages
Puneet Bhalla
No ratings yet
Puneet Bhalla
23 pages
A Note On The "Implicit" Method For Finite-Difference Heat-Transfer Calculations
No ratings yet
A Note On The "Implicit" Method For Finite-Difference Heat-Transfer Calculations
2 pages
Automatic Floor Cleaning Robot: Mariappan. S Thanga Dhinesh S Esakki Durai M Bala Sathya V
No ratings yet
Automatic Floor Cleaning Robot: Mariappan. S Thanga Dhinesh S Esakki Durai M Bala Sathya V
20 pages
Hcr2 Multi Scripts Gemz
No ratings yet
Hcr2 Multi Scripts Gemz
6 pages
Sam International CV
No ratings yet
Sam International CV
3 pages
Descargar Pergaminos de Cristal Claudio Pasten
No ratings yet
Descargar Pergaminos de Cristal Claudio Pasten
3 pages
T C White Observership Award Application Form
No ratings yet
T C White Observership Award Application Form
4 pages
六年级美术评估 worksheet
No ratings yet
六年级美术评估 worksheet
9 pages
ScrumMaster Training Book
100% (14)
ScrumMaster Training Book
125 pages
Spring Reference
No ratings yet
Spring Reference
289 pages
74F382 4-Bit Arithmetic Logic Unit: General Description Features
No ratings yet
74F382 4-Bit Arithmetic Logic Unit: General Description Features
9 pages
What Is Surge Protective Device (SPD) ?
No ratings yet
What Is Surge Protective Device (SPD) ?
4 pages
Air Regulations RK Bali PDF
38% (8)
Air Regulations RK Bali PDF
1 page
Java.io.File Class Overview
No ratings yet
Java.io.File Class Overview
5 pages
Digital Environment Issues Guide
No ratings yet
Digital Environment Issues Guide
66 pages
Bug 10114837 Rman Deletes The Unapplied Archived Redo Logs
No ratings yet
Bug 10114837 Rman Deletes The Unapplied Archived Redo Logs
4 pages
Chapter Eight: File Management
No ratings yet
Chapter Eight: File Management
53 pages
E Peas AEM10941 Datasheet Solar Energy Harvesting
No ratings yet
E Peas AEM10941 Datasheet Solar Energy Harvesting
25 pages
Creopedia - EvoCreo Wikia - Fandom
No ratings yet
Creopedia - EvoCreo Wikia - Fandom
19 pages
Fit AP v200r005c10spcd00 (&ac) Upgrade Guide
No ratings yet
Fit AP v200r005c10spcd00 (&ac) Upgrade Guide
10 pages
LAB05 SCOR - Configure Cisco Firepower NGFW Discovery and IPS Policy
No ratings yet
LAB05 SCOR - Configure Cisco Firepower NGFW Discovery and IPS Policy
31 pages
Topic 1
No ratings yet
Topic 1
38 pages
Cloud Storage and Local Storage
100% (2)
Cloud Storage and Local Storage
15 pages
Air Cargo Terminal Workload Optimization
No ratings yet
Air Cargo Terminal Workload Optimization
93 pages

BNC64 Search & Compare BNC64 Search & Compare

Uploaded by

BNC64 Search & Compare BNC64 Search & Compare

Uploaded by

Statistics in corpus-based sociolinguistics: A practical workshop

 Sociolinguistic data in language corpora

Table 1. Three data sets

Data set 2: 10, 11, 8, 9, 10, 11, 12, 9, 10, 10

Data set 3: 10, 11, 8, 9, 100, 11, 12, 9, 10, 10

Table 2. Measures of central tendency

Table 3. Contingency table based on aggregate data

Based on the contingency table (Table 3) we can conclude that____________________________________

The p-value is:____________________

Do the results of the statistical analysis confirm your initial observation?

Task 4: Looking inside corpora…

Table 4. Distribution of linguistic variable X in the speech of individual speakers

Based on the distribution table (Table 4) we can conclude that____________________________________

Table 5. Measures of central tendency

Table 6. Swearing and gender: BNC64

You might also like